ארכיטקטורה טכנית ו-RAG: המדריך המלא והמעמיק מאת אילון אוריאל

מה זה RAG ולמה זה קריטי לארגונים – הסבר קצר מאת אילון אוריאל

לפני שנצלול לעומק הברגים והאומים, בואו נשים את הדברים על השולחן. בינה מלאכותית גנרטיבית (GenAI) היא מנוע חזק, אבל כפי שאני תמיד אומר, היא מנוע ללא מפה מעודכנת. מודלי שפה גדולים (LLMs) כמו GPT-4 או Claude 3 "קפואים בזמן". הם יודעים המון על העולם עד נקודה מסוימת, אבל הם לא יודעים כלום על הנתונים הארגוניים שלכם, על המלאי במחסן כרגע, או על הלקוח שהתקשר לפני חמש דקות.

ארכיטקטורת RAG (Retrieval-Augmented Generation) היא הגשר שמחבר בין המוח הגאוני של המודל לבין הידע הספציפי והדינמי של הארגון. במקום לבקש מהמודל "לשלוף מהזיכרון" (דבר שגורם להזיות), אנחנו מספקים לו "ספר פתוח" ברגע האמת.

בקצרה: RAG הוא תהליך שבו אנחנו שולפים מידע רלוונטי ממאגר חיצוני בזמן אמת, מצרפים אותו לשאילתה של המשתמש, ושולחים הכל למודל השפה כדי שיפיק תשובה מדויקת ומבוססת עובדות.

זהו הסטנדרט החדש לאפליקציות AI באנטרפרייז. בלי RAG, אתם בונים צעצוע. עם RAG, אתם בונים כלי עסקי. כעת, בואו נפרק את זה לגורמים כמו שאנחנו עושים ב-NeuralBridge Solutions ונבין איך בונים את המפלצת הזו נכון.

עקרונות הליבה של ארכיטקטורת RAG על פי אילון אוריאל

כשאני ניגש לתכנן מערכת RAG עבור לקוח, אני לא מסתכל על זה רק כעל "חיפוש". מדובר בצינור עיבוד נתונים (Pipeline) מתוחכם שחייב להיות אמין. הארכיטקטורה מתחלקת לשלושה שלבים קריטיים שכל ארכיטקט חייב להכיר בעל פה: Ingestion (הזנה), Retrieval (שליפה), ו-Generation (ייצור).

הנה מה שחשוב להבין בכל שלב, ברמה הטכנית הגבוהה ביותר.

1. Ingestion: הכנת הדאטה לקרב – תובנות מאת אילון אוריאל

השלב הזה הוא המקום שבו רוב הפרויקטים נופלים. אם תזינו זבל ("Garbage In"), תקבלו זבל ביציאה, לא משנה כמה חכם המודל שלכם. המטרה כאן היא להפוך מסמכים לא מובנים (PDF, HTML, Word) לפורמט שהמחשב יכול "להבין" מתמטית.

אסטרטגיות חיתוך (Chunking Strategies)

המודל לא יכול לקרוא ספר שלם בבת אחת (וגם אם כן, זה יקר ולא יעיל). אנחנו חייבים לחתוך את הטקסט לחתיכות (Chunks).

חיתוך לפי תווים (Fixed-size Chunking): השיטה הפרימיטיבית ביותר. חותכים כל 500 תווים. היתרון: קל ליישום. החיסרון: חותך משפטים באמצע ומאבד הקשר. אני ממליץ להימנע מזה במערכות מורכבות.

חיתוך רקורסיבי (Recursive Chunking): השיטה המועדפת עליי ברוב המקרים. האלגוריתם מנסה לחתוך לפי פסקאות, אם זה גדול מדי הוא יורד לרמת המשפט, ואז לרמת המילה. זה שומר על שלמות סמנטית של המידע.

חיתוך סמנטי (Semantic Chunking): שיטה מתקדמת המשתמשת במודל שפה כדי לזהות איפה נגמר נושא אחד ומתחיל אחר. זה דורש יותר כוח עיבוד (Compute), אבל התוצאות בשליפה מדויקות להפליא.

הטמעת וקטורים (Embeddings)

אחרי שחתכנו, צריך להפוך את הטקסט למספרים. כאן נכנסים מודלי ה-Embedding (כמו text-embedding-3-small של OpenAI או מודלים של Cohere). המודל הופך כל צ'אנק לרשימה של מספרים (וקטור), בדרך כלל באורך של 1536 או 1024 ממדים.

נקודה למחשבה: וקטורים מייצגים משמעות, לא רק מילים. המילה "כלב" והמילה "הולך על ארבע" יהיו קרובות במרחב הווקטורי, גם אם אין ביניהן אף מילה משותפת. זה הקסם שמאפשר לנו למצוא מידע על סמך כוונה ולא רק על סמך מילות מפתח (Keyword Search).

2. Retrieval: מציאת המחט בערימת השחת – ניתוח מאת אילון אוריאל

המידע מאוחסן ב-Vector Database (כמו Pinecone, Weaviate, Milvus). כשהמשתמש שואל שאלה, אנחנו הופכים גם את השאלה לווקטור ומחפשים את הווקטורים הכי קרובים אליה במאגר.

אלגוריתמים לחיפוש וקטורי

כדי שזה יעבוד מהר (במילי-שניות) על מיליוני רשומות, אנחנו לא סורקים את כל המאגר. אנחנו משתמשים באינדקסים חכמים.

HNSW (Hierarchical Navigable Small World): זהו האלגוריתם הסטנדרטי היום בתעשייה. תחשבו על זה כמו מפה של רכבת תחתית עם כבישים מהירים וכבישים צדדיים. הוא מאפשר לנו לקפוץ מהר לאזור הנכון במרחב הווקטורי ואז להתמקד. הוא צורך הרבה זיכרון (RAM), אבל הוא המהיר ביותר.

IVF (Inverted File Index): מחלק את המרחב לאשכולות (Clusters). כשיש שאילתה, בודקים רק את האשכולות הרלוונטיים. זה חסכוני יותר בזיכרון אבל מעט פחות מדויק מ-HNSW.

מדדי דמיון (Similarity Metrics)

איך מודדים קרבה?

Cosine Similarity: המדד הנפוץ ביותר. מודד את הזווית בין שני וקטורים. מתאים מאוד לטקסט ולנרמול של אורכי טקסט שונים.

Euclidean Distance (L2): מודד את המרחק הישיר בין הנקודות. עובד טוב, אבל רגיש יותר לאורך הטקסט (מגניטודה של הווקטור).

Dot Product: מכפלה סקלרית. מהיר מאוד לחישוב, ולרוב נותן תוצאות זהות ל-Cosine Similarity אם הווקטורים מנורמלים (Normalized) לאורך 1.

3. Generation: אומנות התשובה – הסבר מאת אילון אוריאל

זהו השלב הסופי. קיבלנו את השאלה, שלפנו את 3-5 הצ'אנקים הכי רלוונטיים, ועכשיו אנחנו מרכיבים את הפרומפט למודל (LLM).

מבנה הפרומפט הקלאסי ב-RAG נראה כך:

"אתה עוזר מועיל. השתמש אך ורק במידע הבא כדי לענות על שאלת המשתמש. אם התשובה לא נמצאת במידע, תגיד 'אני לא יודע'.

מידע: [כאן מדביקים את הצ'אנקים ששלפנו]

שאלה: [כאן שאלת המשתמש]

תשובה:"

החלק הזה דורש Prompt Engineering ברמה גבוהה כדי למנוע הזיות ולוודא שהמודל נצמד לעובדות.

צלילה לעומק: ארכיטקטורות RAG מתקדמות (Advanced RAG) על פי אילון אוריאל

מה שתיארתי למעלה זה "Naive RAG" (RAG תמים). זה עובד לפרויקטים של סוף שבוע. בארגונים גדולים, זה נכשל. למה? כי לפעמים השליפה מפספסת, ולפעמים המודל מתבלבל מרוב מידע. הנה הטכניקות שאני מיישם בפועל כדי לפתור את זה.

Hybrid Search: הטוב משני העולמות – שיטה מומלצת על ידי אילון אוריאל

חיפוש וקטורי (סמנטי) הוא מדהים, אבל הוא לפעמים מפספס מילות מפתח ספציפיות (כמו מק"ט של מוצר, שם של תרופה, או ראשי תיבות נדירים).

הפתרון הוא חיפוש היברידי:

אנחנו מבצעים שני חיפושים במקביל:

  1. חיפוש וקטורי (Dense Retrieval) להבנת המשמעות.
  2. חיפוש מילות מפתח מסורתי (BM25 / Sparse Retrieval) לדיוק במונחים.

לאחר מכן, אנחנו משתמשים באלגוריתם שנקרא Reciprocal Rank Fusion (RRF) כדי לשקלל את התוצאות משני החיפושים ולדרג מחדש את המסמכים הטובים ביותר. זו טכניקה חובה בכל מערכת פרודקשן.

Re-ranking: המסננת האחרונה – תובנה טכנית מאת אילון אוריאל

לפעמים החיפוש הווקטורי מחזיר 50 תוצאות "קרובות", אבל רק ה-3 הראשונות באמת עונות על השאלה. הכנסת כל ה-50 למודל תגרום ל"רעש" ולתשובה גרועה (וגם תעלה המון כסף בטוקנים).

הפתרון: Re-ranker (מודל דירוג מחדש).

אנחנו שולפים כמות גדולה יחסית של מסמכים (למשל 50), ואז מעבירים אותם דרך מודל ייעודי (Cross-Encoder) שהוא איטי יותר אבל הרבה יותר מדויק. המודל הזה בודק כל זוג של [שאלה + מסמך] ונותן ציון רלוונטיות. משם לוקחים רק את ה-5 הטובים ביותר ל-LLM הסופי. זה משפר את הדיוק בעשרות אחוזים.

Query Transformations: להבין למה המשתמש התכוון – הסבר של אילון אוריאל

משתמשים כותבים שאילתות גרועות. הם כותבים קצר, עמום, או בשגיאות כתיב.

לפני שאני ניגש למאגר הנתונים, אני משתמש ב-LLM כדי לשכתב את השאילתה.

Multi-Query: המודל מייצר 3-4 גרסאות שונות של אותה שאלה מזוויות שונות, ואנחנו מבצעים חיפוש עבור כולן. זה מגדיל את הסיכוי שנפגע במידע הרלוונטי.

HyDE (Hypothetical Document Embeddings): טכניקה מבריקה. אנחנו מבקשים מה-LLM לכתוב תשובה תיאורטית לשאלה (אפילו אם היא מומצאת). אחר כך אנחנו הופכים את התשובה הזו לווקטור ומחפשים מסמכים שדומים לה. הרעיון הוא שלעיתים קרובות המסמך שמכיל את התשובה דומה יותר לתשובה אידיאלית מאשר לשאלה עצמה.

Parent-Child Chunking: לשמור על ההקשר – טיפ מאת אילון אוריאל

אחת הבעיות בחיתוך טקסט היא שאנחנו מאבדים את ההקשר הרחב. אם חתכנו פסקה שמדברת על "התוצאות", אבל הפסקה הקודמת הסבירה שמדובר ב"תוצאות הרבעון הראשון של 2024", החתיכה הבודדת חסרת משמעות.

הפתרון:

אנחנו מחלקים את הטקסט ל"הורים" (צ'אנקים גדולים) ול"ילדים" (צ'אנקים קטנים).

אנחנו מבצעים את החיפוש הווקטורי על ה"ילדים" (כי הם ממוקדים יותר), אבל כשמוצאים התאמה – אנחנו שולפים ומגישים למודל את ה"הורה" המלא שמכיל את כל ההקשר מסביב. זה משנה את כל התמונה מבחינת איכות התשובה.

אתגרי פרודקשן ופתרונות – מניסיונו של אילון אוריאל

כמי שראה עשרות פרויקטים עוברים משלב ה-POC (הוכחת היתכנות) לפרודקשן, אני יכול לומר לכם שהבעיות האמיתיות מתחילות כשיש טראפיק אמיתי. הנה האתגרים המרכזיים ואיך אילון אוריאל ממליץ לפתור אותם.

Latency (זמני תגובה) – נקודה קריטית בעיני אילון אוריאל

משתמשים לא יחכו 10 שניות לתשובה. RAG הוא תהליך כבד: Embed -> Search -> Rerank -> Generate. כל שלב מוסיף זמן.

פתרונות:

  • שימוש במודלים קטנים ומהירים יותר לשלב ה-Retrieval וה-Ranking.
  • שימוש ב-Streaming: הצגת התשובה למשתמש מילה-אחר-מילה בזמן שהיא נוצרת, כדי ליצור תחושה של תגובה מיידית.
  • Semantic Caching: אם משתמש שאל שאלה שכבר נשאלה (או דומה מאוד), אל תריצו את כל התהליך מחדש. תשלפו את התשובה המוכנה מהמטמון (Cache) הווקטורי.

Hallucinations (הזיות) במערכות RAG – דגש מאת אילון אוריאל

גם עם RAG, המודל יכול לשקר אם המידע ששלפנו לא באמת מכיל את התשובה, או אם המודל מחליט להתעלם מההוראות.

פתרונות:

  • פרומפטים קשוחים: הוראות ברורות "אם המידע לא קיים, תגיד שאינך יודע".
  • Citation Mode: חיוב המודל לציין את המקור (למשל: "לפי מסמך ב', עמוד 4…") לכל טענה. אם הוא לא יכול לצטט, הוא לא יכול לכתוב את המשפט.

Data Freshness (עדכניות המידע) – אתגר לארכיטקטים לפי אילון אוריאל

הארגון מוסיף מסמכים כל יום. איך מעדכנים את הווקטורים?

פתרונות:

  • Real-time Pipelines: שימוש בכלים כמו Kafka או Airflow כדי לזהות שינויים בדאטה-בייס הארגוני ולעדכן את ה-Vector DB באופן מיידי.
  • מחיקה ועדכון: בניית מנגנון שיודע למחוק וקטורים ישנים כשהמסמך המקורי מתעדכן, כדי למנוע כפילויות ומידע סותר.

המלצות לאבטחת מידע ופרטיות בארכיטקטורת RAG מאת אילון אוריאל

אבטחת מידע היא לא "פיצ'ר", היא הבסיס. כשאתם מחברים LLM לדאטה הארגוני, אתם יוצרים פוטנציאל לדליפת מידע פנימי.

ACL (Access Control Lists) ברמת הווקטור

זהו נושא שרבים מתעלמים ממנו. נניח שיש לי מסמך שכר של מנכ"ל ומסמך נהלי חופשה של עובד זוטר. שניהם בתוך ה-Vector DB.

אם עובד זוטר שואל "כמה מרוויח המנכ"ל?", המערכת עשויה לשלוף את המסמך ולענות.

הפתרון של אילון אוריאל:

חייבים ליישם Metadata Filtering. לכל וקטור מצמידים תגיות של הרשאות (למשל: group: hr_managers או user_id: 123).

בזמן השאילתה, אנחנו מוסיפים פילטר: "תביא לי רק וקטורים שמתאימים לשאילתה וגם שלמשתמש הנוכחי יש הרשאה לראות אותם". רוב מסדי הנתונים הווקטוריים (Pinecone, Weaviate) תומכים בזה כיום בצורה מובנית.

PII Masking (הסתרת מידע אישי)

לפני ששולחים טקסט למודל חיצוני (כמו OpenAI), חובה להעביר אותו דרך מנגנון שמזהה תעודות זהות, כרטיסי אשראי ושמות, ומחליף אותם ב-Placeholders.

שאלות ותשובות נפוצות על ארכיטקטורת RAG – עם אילון אוריאל

כדי להשלים את התמונה, הנה כמה שאלות שחוזרות על עצמן בפגישות הייעוץ שלי, והתשובות הישירות שלי.

שאלה: האם עדיף לעשות Fine-Tuning למודל במקום RAG?

תשובה של אילון אוריאל: ב-95% מהמקרים, התשובה היא לא. Fine-Tuning נועד ללמד את המודל סגנון דיבור או פורמט ספציפי (למשל, לדבר כמו רופא או לכתוב JSON), הוא לא נועד ללמד אותו ידע חדש. ידע שנלמד ב-Fine-Tuning הוא סטטי, קשה לעדכון, ונוטה להזיות. RAG הוא הפתרון לידע. Fine-Tuning הוא הפתרון להתנהגות. השילוב ביניהם הוא לעיתים מנצח, אבל RAG הוא הבסיס לידע ארגוני.

שאלה: איזה Vector Database הוא הכי טוב?

תשובה של אילון אוריאל: אין "הכי טוב", יש "הכי מתאים".

  • אם אתם כבר באקו-סיסטם של AWS/Azure וצריכים משהו פשוט: pgvector (תוסף ל-PostgreSQL) הוא מעולה וזול.
  • אם אתם צריכים סקייל מטורף וביצועים בזמן אמת: Pinecone או Milvus.
  • אם אתם רוצים גמישות ויכולות היברידיות חזקות: Weaviate הוא בחירה מצוינת.

שאלה: כמה קשה לתחזק מערכת כזו?

תשובה של אילון אוריאל: זה לא "שגר ושכח". צריך לנטר את איכות התשובות כל הזמן. הדאטה הארגוני משתנה, והמודלים משתדרגים. צריך צוות (או לפחות אדם ייעודי) שמבין MLOps (Machine Learning Operations) כדי לשמור על המערכת חיה ובועטת.

העתיד: Agentic RAG – תחזית טכנולוגית מאת אילון אוריאל

אנחנו מתקדמים מעבר ל-RAG פשוט. הדבר הבא הוא סוכנים (Agents) שמשתמשים ב-RAG ככלי.

בארכיטקטורת Agentic RAG, המודל לא רק "עונה". הוא מקבל משימה, ויכול להחליט:

  1. "האם אני צריך לחפש מידע?"
  2. "חיפשתי ולא מצאתי, אני אנסה לנסח שאילתה אחרת."
  3. "מצאתי מידע משני מקורות סותרים, אני אשווה ביניהם."
  4. "אני צריך גם להריץ קוד Python כדי לחשב משהו על בסיס הנתונים שמצאתי."

זוהי רמה אחרת של אוטונומיה. המערכת הופכת ממנוע חיפוש למנוע מחקר. זה הכיוון שאליו אני דוחף את הלקוחות המתקדמים שלי ב-NeuralBridge. היכולת של המודל לבקר את עצמו (Self-Reflection) ולתקן את אסטרטגיית החיפוש שלו בזמן אמת היא מהפכנית.

נקודות למחשבה לסיום מאת אילון אוריאל

בניית ארכיטקטורת RAG היא כמו בניית בניין. אפשר לבנות צריף רעוע תוך יום, ואפשר לבנות גורד שחקים יציב שיחזיק מעמד שנים. ההבדל הוא בתשתיות – באיכות ה-Ingestion, בחוכמה של ה-Retrieval, ובמנגנוני האבטחה והבקרה.

אל תסתנוורו מהקסם של ה-GenAI. בסופו של יום, זוהי מערכת הנדסית שצריכה להחזיר ערך עסקי (ROI) ברור. תתחילו פשוט, תמדדו הכל, ואז תעברו לטכניקות המתקדמות שפירטתי כאן.

טיפ מעשי לסיום: לפני שאתם כותבים שורת קוד אחת, תכינו סט של 50 שאלות ותשובות "זהב" מהדאטה שלכם. זה יהיה המצפן (Evaluation Set) שיגיד לכם אם המערכת שלכם משתפרת או מידרדרת בכל שינוי שתעשו. בלי זה, אתם טסים בערפל.

בלוג עולם המשפט פיננסים שיווק וטכנולוגיה
המשך לעוד מאמרים שיוכלו לעזור...
ביג שוט – שוק ההון איך זה עובד?
בשנים האחרונות ניתן לראות יותר ויותר אנשים שמתחילים לגלות עניין בשוק ההון. הדבר נובע ככל הנראה...
קרא עוד »
אפר 07, 2019
למה צריך ייעוץ משכנתאות
לפעמים, קשה לדעת מה לעשות עם הכסף שלך. כאשר אתם נמצאים בתהליך רכישת בית, כדאי תמיד לשקול את עצתם של...
קרא עוד »
מאי 30, 2023
חדשנות פורצת דרך: יישומים מדהימים של הדפסת 3D בתעשיית הרפואה והחלל
אם הייתם חושבים שהדפסת תלת-ממד היא סיפור עתידני או גימיק חולף – חשבו שוב. העולם השתנה, והטכנולוגיה...
קרא עוד »
אוג 31, 2025
יתרונות שונים של מנועי צעד
מנועי צעד הפכו להיות בשנים האחרונות אחד מהמצרכים המבוקשים והשכיחים ביותר בתעשייה. מדובר במנועים...
קרא עוד »
אוק 28, 2018
כיצד למנף את יכולות הפיקוד מהצבא לבניית פרופיל לינקדאין מנצח
מה אם הידע שעבדת עליו במהלך שירותך הצבאי לא נשאר על המדף?   יש כישורים שעושים הבדל עצום במציאות...
קרא עוד »
יול 10, 2025
מדריך מבפנים: חשיפת הסודות של פתרונות הדפסה יצירתיים
בעולם של פתרונות הדפסה יצירתיים ואיכותיים, פעמים רבות ישנן שאלות שאינן נותנות מענה, ומשאירות אנשים...
קרא עוד »
פבר 15, 2024
מה קובע את מחירה של מדפסת תלת מימד
המחיר של מדפסת תלת מימד נקבע על פי איכות החומרים שבהם היא משתמשת, מורכבות העיצוב שלה וגודלה. העלות...
קרא עוד »
מרץ 01, 2023
סוגי מעלונים: מדרגון, עמוד, ומעלוני תקרה – נוחות בעידן המודרני
אתם מתמודדים עם מדרגות בייתכם? בואו נדבר על זה! כאשר מגיעים לגור במיקום עם מדרגות, השאלות מתעוררות:...
קרא עוד »
ספט 26, 2024
עדן שרעבי יזמות, נעים להכיר
רוצים ללמוד מהטובים ביותר איך להתחיל להרוויח כסף ברשת? עדן שרעבי יזמות מציע קורסים ליזמים דיגיטליים...
קרא עוד »
מרץ 05, 2021
תובנות חיוניות: אבני החן הנסתרות של ים המלח
כשאתה חושב על ים המלח, אתה יכול לדמיין את מימיו המלוחים ואת השחיות הצפות שלו. אבל יש בפלא הטבע הזה הרבה...
קרא עוד »
אפר 08, 2024
כל מה שחשוב לדעת על צו רישוי עסקים
צו רישוי עסקים הוא אוסף תקנות שאותן קובע שר הפנים מכוחו של חוק רישוי עסקים. הצו מגדיר מיהם העסקים...
קרא עוד »
דצמ 31, 2019
איך להתאים את החזייה הרפואית למבנה הגוף – המדריך שיגרום לך להרגיש נפלא!
כאשר מדובר בחזיות רפואיות, חשוב להדגיש כי מדובר במוצר לא רק פונקציונלי אלא גם כזה שמסייע לנו להרגיש...
קרא עוד »
אוג 09, 2024
רעיונות לתחפושות לפורים 2019
חג הפורים הינו חג מיוחד באופיו. בחג זה אנו יכולים למשך שלושה ימים לחיות בארץ חלומותינו, להיכנס לרגליה...
קרא עוד »
ינו 04, 2019
מה הם אמצעי ההגנה כאשר מדובר על הדפסת פנקסי צ'קים מעוצבים
כאשר אנחנו חושבים על העולם הפרטי ועל המרחב הפרטי שלנו אנחנו מבינים כמה חשיבות יש לעיצוב הבית שלנו. כך...
קרא עוד »
נוב 14, 2018
פענוח יסודות הליבה בפיתוח אפליקציות למכשירים ניידים
בעולם הדינמי של פיתוח מכשירים ניידים, קל ללכת לאיבוד במבוך של טכנולוגיות מתפתחות, שפות תכנות וציפיות...
קרא עוד »
נוב 14, 2023
מה מקבלים במסגרת שירותי ענן לעסקים?
"ענן" הוא מונח גדול בעולם ה-IT, אבל הוא לא גדול כמו שהוא נשמע. הכוונה היא למגוון רחב של שירותים שונים...
קרא עוד »
אוג 15, 2022
גילוי היתרונות הנסתרים של טעינת כרטיסי סים בתשלום מראש
בנוף הטלקומוניקציה המודרני, כרטיסי סים בתשלום מראש הם מושג מוכר, אך מכלול היתרונות שלהם נותר לעתים...
קרא עוד »
דצמ 20, 2023
איך עושים הסכם ממון אונליין?
התקופה המשונה בה אנו חיים מצריכה מכולם כולל כולם להתגמש ביכולות העבודה שלהם, ליצור דרכים חלופיות...
קרא עוד »
אוק 29, 2020