End-to-End-RAG-Workflow: Wie Retrieval-Augmented Generation funktioniert

Erfahren Sie, wie der RAG-Workflow funktioniert – von Ingestion und Embedding bis hin zu Retrieval, Augmentation und Generation. Behandelt hybride Suche, Evaluierung und Bereitstellung.

von Databricks-Mitarbeiter

Retrieval Augmented Generation (RAG) verbindet Large Language Models über eine fünfstufige Pipeline – Ingestion, Embedding, Retrieval, Augmentation und Generation – mit externen Wissensdatenbanken und ermöglicht so präzise, domänenspezifische Antworten ohne ein erneutes Training des Modells.
Ein produktiver RAG-Workflow erfordert die Auswahl des richtigen Embedding-Modells, die Konfiguration von Vektordatenbank-Indizierung und Chunking-Strategien sowie die Implementierung einer hybriden Suche, die semantische Vektorsuche mit einer Keyword-Fallback-Option kombiniert, um die Retrieval-Qualität zu maximieren.
Die RAG-Evaluierung muss die Retrieval-Präzision und die Generierungstreue unabhängig voneinander messen, da eine starke LLM-Leistung eine schwache Information-Retrieval-Komponente nicht kompensieren kann und kontinuierliche Datenaktualisierungen unerlässlich sind, um zu verhindern, dass veraltetes Wissen die Antwortgenauigkeit beeinträchtigt.

Retrieval Augmented Generation (RAG) ist ein AI-Architekturmuster, das große Sprachmodelle zur Inferenzzeit mit externen Wissensquellen verbindet. Dies ermöglicht es diesen Modellen, präzise, kontextbezogene Antworten zu generieren, die über ihre statischen Trainingsdaten hinausgehen. Anstatt sich auf das während des Pretrainings codierte Wissen zu verlassen, ruft ein RAG-System als Reaktion auf jede Benutzeranfrage relevante Dokumente aus einer externen Datenbank ab und fügt diesen Inhalt vor der Generierung in den LLM-Prompt ein. Das Ergebnis ist ein generatives AI-System, das präzise, domänenspezifische Antworten liefert, die auf verifizierten Quellen basieren – ohne dass bei jeder Änderung des zugrunde liegenden Wissens ein vollständiges Retraining des Modells erforderlich ist.

LLMs liefern aufgrund von Wissensgrenzen oft veraltete Antworten und können nicht auf proprietäre interne Dokumente oder externe Echtzeit-Datenquellen zugreifen. RAG behebt diese Einschränkung direkt. Mehr als 60 % der Unternehmen entwickeln aktiv AI-gestützte Retrieval-Tools. Dies spiegelt einen grundlegenden Wandel wider: Weg vom reinen Verlassen auf das Modellgedächtnis hin zur dynamischen Anbindung von AI an Live-Wissensdatenbanken, die interne Dokumente, Produktdokumentationen und aktuelle Daten enthalten.

Dieser Leitfaden führt Sie durch den gesamten RAG-Workflow – von den Architekturkomponenten und der Daten-Ingestion bis hin zu Hybrid Retrieval, Prompt-Design, Evaluierung und Deployment – mit praktischen Anleitungen für Teams, die produktionsreife RAG-Pipelines aufbauen.

Hauptkomponenten einer RAG-Architektur

RAG-Systeme bestehen aus vier Hauptkomponenten: einer Wissensdatenbank, die externes Wissen speichert, einer Information-Retrieval-Komponente (dem Retriever), die relevante Dokumente für jede Anfrage findet, einer Integrationsschicht, die den abgerufenen Kontext zu einem LLM-Prompt zusammenfügt, und einem Generator (dem LLM), der die endgültige Antwort generiert. Jede Komponente kann unabhängig optimiert werden, und die Gesamtqualität der Pipeline wird durch das schwächste Glied begrenzt – ein hochwertiges LLM kann einen Retriever, der ständig irrelevante Dokumente liefert, nicht kompensieren.

Der Retriever und die Vektordatenbank

Der Retriever nimmt eine Benutzeranfrage entgegen, wandelt sie in eine vergleichbare Darstellung um und gibt die relevantesten Dokumente aus der Wissensdatenbank zurück. Die Qualität des Retrievers ist der entscheidende Faktor für die Qualität der RAG-Ausgabe. Die Vektordatenbank speichert numerische Darstellungen von Dokumenten-Chunks – sogenannte Embeddings – und ermöglicht so eine schnelle Ähnlichkeitssuche in großem Maßstab. Im Gegensatz zu relationalen Datenbanken, die auf exakten Werten abgleichen, finden Vektordatenbanken Dokumente, deren Bedeutung der Anfrage semantisch am nächsten kommt, indem sie Distanzmetriken wie die Kosinus-Ähnlichkeit verwenden.

Der Generator und die Orchestrierungsschicht

Der Generator ist das Large Language Model, das den erweiterten Prompt erhält – die ursprüngliche Frage des Benutzers kombiniert mit dem abgerufenen Kontext – und die endgültige Antwort generiert. Die Orchestrierungsschicht verbindet alle Komponenten zu einer kohärenten RAG-Pipeline und übernimmt die Prompt-Erstellung, den Konversationsverlauf und die Fehlerbehandlung. Frameworks wie LangChain und LlamaIndex bieten gängige Orchestrierungsbausteine, während Plattformen wie Databricks eine verwaltete Infrastruktur für den gesamten Stack bereitstellen.

Datenquellen und externes Wissen

Das Spektrum valider Datenquellen für ein RAG-System ist breit gefächert: strukturierte Daten in relationalen Tabellen, unstrukturierter Text in PDFs und Markdown-Dateien, interne Dokumente wie technische Runbooks und HR-Richtlinien, Produktdokumentationen und externe Wissensdatenbanken. Domänenspezifische Daten – also Inhalte, die für die Fragen der Benutzer direkt relevant sind – sollten zuerst erfasst und besonders sorgfältig gepflegt werden. Interne Daten, einschließlich proprietärer Forschung und interner Dokumente, bieten den größten Wettbewerbsvorteil bei einer RAG-Implementierung, da sie Wissen repräsentieren, mit dem kein öffentliches LLM trainiert wurde.

Die praktische Frage bei der Auswahl von Datenquellen ist die Relevanzdichte: Welcher Prozentsatz der indexierten Dokumente wird tatsächlich als Reaktion auf echte Anfragen abgerufen? Quellen mit hoher Relevanz rechtfertigen die Rechenleistung und die finanziellen Kosten für das Embedding und Indexieren; Quellen mit geringer Relevanz verwässern die Retrieval-Qualität, indem sie das Rauschen erhöhen, das der Retriever filtern muss.

Mehrere Datenquellen können in einem einzigen RAG-System kombiniert werden – zum Beispiel die Verknüpfung eines Produktdokumentations-Korpus mit einer Echtzeit-Kundendatenbank –, solange die Ingestion-Pipeline jede Quelle auf ein einheitliches Textformat normiert. Teams sollten die Data Lineage jeder indexierten Quelle dokumentieren, damit der Ursprung jedes abgerufenen Dokuments bis zu seiner verbindlichen Quelle zurückverfolgt werden kann. Dies ermöglicht Audit- und Compliance-Workflows in regulierten Branchen.

Embedding-Modell und Vektorspeicher

Auswahl eines Embedding-Modells

Ein Embedding-Modell ist ein spezialisiertes Sprachmodell, das Text in numerische Darstellungen umwandelt – hochdimensionale Vektoren, die semantische Bedeutung codieren. Wenn ein Benutzer eine Anfrage stellt, wandelt dasselbe Embedding-Modell diese Benutzereingabe in einen vergleichbaren Vektor um. Dies ermöglicht den mathematischen Vergleich zwischen der Anfrage und allen gespeicherten Dokumenten-Embeddings. Das während der Ingestion verwendete Embedding-Modell muss mit dem zur Abfragezeit verwendeten identisch sein.

Die Modellauswahl erfordert Abwägungen zwischen Darstellungsqualität, Vektordimensionalität, Inferenzlatenz und finanziellen Kosten. Universelle Modelle wie bge-large-en erzeugen 1.024-dimensionale Vektoren, die in verschiedenen Domänen gute Leistungen erbringen. Domänenspezifische Embedding-Modelle, die auf technische Texte feinabgestimmt sind, übertreffen allgemeine Modelle bei speziellen Retrieval-Aufgaben oft. Embedding-Modelle verwandeln Rohtext in die numerischen Darstellungen, die eine Vektorähnlichkeitssuche erst möglich machen.

Embedding-Modelle können auch im Hinblick auf ihre Fähigkeit bewertet werden, mit Anfragen umzugehen, die anders formuliert sind als die abzurufenden Dokumente – eine Eigenschaft, die als mehrsprachige Robustheit (Cross-Lingual Robustness) oder Paraphrasen-Robustheit bezeichnet wird. In Unternehmensumgebungen, in denen Benutzer Fragen umgangssprachlich formulieren, während die Dokumentation formell verfasst ist, ist diese semantische Brücke entscheidend. Das Testen des Embedding-Modells mit einer repräsentativen Stichprobe echter Benutzeranfragen vor dem Start eines produktiven Indexierungslaufs kann ein späteres, kostspieliges erneutes Embedding des gesamten Korpus verhindern.

Chunking-Strategie und Indexierung

Große Dokumente müssen vor dem Embedding in kleinere Chunks aufgeteilt werden, da das Kontextfenster des Embedding-Modells begrenzt ist und kleinere Chunks ein präziseres Retrieval ermöglichen. Die Chunk-Größe wirkt sich direkt auf die Ausgabequalität aus: Zu kleine Chunks verlieren den umgebenden Kontext, während zu große Chunks die spezifische Passage, die für die Benutzerfrage am relevantesten ist, verwässern. Zu den gängigen Strategien gehören das Aufteilen in feste Größen nach Token-Anzahl und das Aufteilen an Satzgrenzen mit überlappenden Rändern, um das Risiko zu verringern, dass wichtiger Kontext an eine Grenze fällt.

Nach dem Embedding werden die Vektoren im Vektorspeicher gespeichert und indexiert. Ein Vektorindex, der Algorithmen wie HNSW verwendet, organisiert Embeddings so, dass eine approximative Nächste-Nachbar-Suche in großem Maßstab möglich ist. Dadurch wird das Retrieval von einem linearen Scan aller Embeddings auf eine Suche im Sub-Millisekundenbereich verkürzt.

Information Retrieval und Hybrid Search

Die semantische Suche – das Rückgrat der meisten RAG-Systeme – findet Dokumente, deren Bedeutung der Benutzeranfrage am nächsten kommt, und geht dabei ganz natürlich mit Paraphrasierungen und Synonymen um. Die Databricks AI Search implementiert die semantische Vektorsuche mit automatischer Synchronisierung aus Delta-Tabellen, sodass die Wissensdatenbank neue Daten ohne manuelle Neuindexierung widerspiegelt.

Die reine semantische Suche hat eine bekannte Schwachstelle bei Exact-Match-Anfragen: spezifische Fehlercodes, Versionsnummern oder benannte Entitäten. Hybrid Search löst dies, indem sie die semantische Vektorsuche mit der BM25-Keywordsuche kombiniert – einem probabilistischen Termfrequenz-Modell, das sich hervorragend für den Abgleich exakter und seltener Begriffe eignet. Das parallele Ausführen beider Suchpfade und das Zusammenführen der Ergebnisse mittels Reciprocal Rank Fusion verbessert die Retrieval-Effizienz über eine breitere Verteilung von Anfragen hinweg.

Ein Reranking-Schritt kann die Ergebnisse weiter verbessern, indem ein Cross-Encoder-Modell angewendet wird, um jedes abgerufene Dokument im Vergleich zur Anfrage zu bewerten und die Ergebnisse so neu zu ordnen, dass die relevantesten Dokumente ganz oben erscheinen. Retrieval-Methoden wie das Reranking verbessern die Präzision erheblich und sind besonders wertvoll, wenn das LLM-Kontextfenster die Anzahl der Dokumente begrenzt, die an den Generator übergeben werden können.

Ähnlichkeitsschwellenwerte fügen ein letztes Qualitäts-Gate hinzu: Dokumente, deren Relevanz-Score unter einen Mindestgrenzwert fällt, sollten vollständig herausgefiltert werden, anstatt als qualitativ minderwertiger Kontext an den Generator übergeben zu werden. Das Übergeben von irrelevantem Kontext ist schlimmer als das Übergeben von gar keinem Kontext – es verbraucht das Kontextfenster und erhöht das Risiko, dass das LLM korrekte und falsche Informationen in der generierten Antwort vermischt. Das Festlegen konservativer Schwellenwerte und die Überwachung der Filterrate im Laufe der Zeit ist eine einfache Möglichkeit, die Retrieval-Qualität ohne architektonische Änderungen aufrechtzuerhalten.

Wie funktioniert RAG: Von der Ingestion zur Generierung

Der RAG-Workflow folgt fünf aufeinanderfolgenden Phasen, die die Frage eines Benutzers in eine fundierte, präzise Antwort umwandeln.

Phase 1: Externe Daten erfassen und normalisieren

Die RAG-Pipeline beginnt mit der Daten-Ingestion. Rohdokumente werden in eine ETL-Pipeline geladen, die den Text bereinigt und normalisiert – dabei werden Boilerplate-Texte entfernt, Leerzeichen standardisiert und strukturierte Inhalte aus Tabellen und Code extrahiert. Die Data-Lakehouse-Architektur zentralisiert die Ingestion sowohl strukturierter als auch unstrukturierter Inhalte unter einer einheitlichen Governance und bildet so eine natürliche Grundlage für die RAG-Wissensdatenbank.

Phase 2: In Chunks aufteilen, embedden und indexieren

Bereinigte Dokumente werden in Chunks aufgeteilt. Jeder Chunk wird durch das Embedding-Modell geleitet, um einen Vektor zu erzeugen. Die resultierenden Embeddings werden zusammen mit dem Originaltext und den Metadaten (Dokumententitel, Datum, Quell-URL) in den Vector Store geschrieben. Metadaten ermöglichen eine gefilterte Abfrage – so lassen sich die Ergebnisse auf Dokumente beschränken, die in einem bestimmten Zeitraum veröffentlicht wurden oder für eine bestimmte Benutzerrolle zugänglich sind. RAG erfordert kontinuierliche Aktualisierungen, um die Relevanz der Daten zu gewährleisten. Produktionssysteme benötigen automatisierte Pipelines, die aktualisierte Quelldokumente erkennen und ein erneutes Embedding nach Zeitplan oder ereignisgesteuert auslösen.

Phase 3: Relevante Dokumente abrufen

Wenn ein Benutzer eine Anfrage stellt, wendet das RAG-System dasselbe Embedding-Modell an, um die Benutzereingabe in eine Vektordarstellung umzuwandeln. Anschließend fragt es den Vector Store ab und führt eine Ähnlichkeitssuche durch, die die Top-k relevantesten Dokumenten-Chunks zurückgibt. Der k-Wert – also wie viele Chunks abgerufen werden – wägt die Abdeckung der Ergebnisse gegen den Verbrauch des Kontextfensters ab und muss auf das Ziel-LLM abgestimmt werden.

Phase 4: Den LLM-Prompt erweitern

Die abgerufenen Dokumente werden in den erweiterten Prompt eingefügt. Eine typische Struktur stellt eine Systemanweisung an den Anfang („Beantworte die Frage des Benutzers nur auf Basis des bereitgestellten Kontexts. Wenn du die Antwort im Kontext nicht finden kannst, sag das.“), gefolgt von den abgerufenen Text-Chunks und der ursprünglichen Frage des Benutzers. Wenn die relevantesten Dokumente zuerst platziert werden, verbessert dies meist den Fokus. Das gilt insbesondere für Modelle, die anfällig für das „Lost in the Middle“-Phänomen sind, bei dem Kontext am Anfang und Ende mehr Aufmerksamkeit erhält als Inhalte in der Mitte.

Phase 5: Die finale Antwort generieren

Der Generator erhält den erweiterten Prompt und erstellt die finale Antwort. Die Nachbearbeitung kann Quellenangaben anhängen, unpassende Ausgaben filtern oder Ergebnisse in ein einheitliches Format strukturieren. Das LLM generiert präzise Antworten, weil es Zugriff auf den abgerufenen Kontext hat, anstatt sich ausschließlich auf statische Trainingsdaten aus dem Pretraining zu verlassen.

Die Verwaltung des Konversationsverlaufs ist ein wichtiger Aspekt auf der Generierungsebene für mehrstufige RAG-Anwendungen. Wenn sich das RAG-System an frühere Interaktionen in einer Sitzung erinnern muss – damit Benutzer Folgefragen stellen können, die sich auf vorherige Antworten beziehen –, muss der Konversationsverlauf in den erweiterten Prompt integriert werden. Dies erhöht die effektive Prompt-Länge und verringert das verfügbare Kontextfenster für neu abgerufene Dokumente. Teams sollten ein explizites Kontext-Budgetmanagement implementieren, das Token zwischen dem Verlauf, dem abgerufenen Kontext und der aktuellen Benutzeranfrage aufteilt.

Generative AI, LLM-Prompt-Design und Orchestrierung

Eine wiederverwendbare LLM-Prompt-Vorlage trennt statische Anweisungen – Systemrolle, Verhaltenseinschränkungen, Ausgabeformat – von dynamischen Inhalten, die zur Laufzeit eingefügt werden: abgerufener Kontext und Benutzeranfrage. Die Anweisung, „nur aus dem bereitgestellten Kontext“ zu antworten, ist für RAG-Systeme besonders wichtig. Ohne sie ergänzen generative AI-Modelle den abgerufenen Inhalt mit gelernten Trainingsdaten. Dadurch entstehen Antworten, die verifizierte Informationen mit potenziell falschem Modellwissen vermischen.

Das Einfügen von Zitaten – also das Anhängen von Metadaten des Quelldokuments an jede generierte Antwort – ermöglicht es menschlichen Prüfern zu verifizieren, dass die Antworten auf tatsächlich abgerufenen Daten basieren. In Unternehmensumgebungen sind die Unterstützung von Zitaten sowie Systemanweisungen, die den Themenbereich, die Antwortlänge und das Eskalationsverhalten einschränken, zwingende Voraussetzungen für präzise Antworten im Produktivbetrieb.

Fine-Tuning, Domänenwissen und Alternativen

Fine-Tuning passt ein vortrainiertes Modell an eine bestimmte Domäne an, indem die Modellgewichte auf einem kuratierten Datensatz geändert werden. Im Gegensatz zu RAG ändert Fine-Tuning das Verhalten des zugrunde liegenden Modells – sein Vokabular, seinen Tonfall und sein implizites Domänenwissen –, anstatt Kontext zum Zeitpunkt der Inferenz einzufügen. Fine-Tuning ist dann sinnvoll, wenn das Basismodell domänenspezifische Begriffe ständig missversteht oder wenn der gewünschte Antwortstil nicht allein durch Prompt-Engineering erreicht werden kann.

Fine-Tuning ist kein effektiver Ersatz für RAG, wenn das Ziel der Zugriff auf aktuelle Informationen ist. Das Fine-Tuning von LLMs auf neuen Daten verursacht erhebliche Rechen- und Finanzierungskosten und kann mit sich ständig ändernden Wissensdatenbanken nicht Schritt halten. Die meisten Produktionssysteme kombinieren beides: Ein feinabgestimmtes Modell übernimmt den Tonfall und die Terminologie der Domäne, während der RAG-Workflow den Zugriff auf das Wissen ermöglicht. Sich beim Wissenszugriff ausschließlich auf Fine-Tuning zu verlassen, ist ein häufiger und kostspieliger Fehler.

Prompt-Engineering – das Entwerfen von Systemanweisungen und Few-Shot-Beispielen zur Steuerung des Modellverhaltens – bleibt der grundlegende Ausgangspunkt für jede LLM-Anpassung. Es erfordert keine zusätzliche Infrastruktur und liefert sofort Ergebnisse. Bei RAG-Systemen steuert Prompt-Engineering, wie dem Modell der abgerufene Kontext präsentiert wird und wie das Modell Unsicherheit signalisiert, wenn die abgerufenen Dokumente die Frage des Benutzers nicht vollständig beantworten. Jedes RAG-System beinhaltet per Definition Prompt-Engineering, da das Zusammenstellen des erweiterten Prompts selbst eine Form des Prompt-Designs ist.

RAG-Evaluierung und Retrieval-Tests

Qualität des Abrufs messen

Die RAG-Evaluierung muss die Komponente für den Informationsabruf und die Generierungskomponente unabhängig voneinander bewerten. Die Bewertung des Abrufs nutzt Precision@k: Welcher Anteil der k abgerufenen Dokumente für eine bestimmte Anfrage ist tatsächlich relevant? Ein Ground-Truth-Evaluierungsdatensatz – Anfragen gepaart mit bekanntermaßen korrekten Dokumenten und Antworten – ist die notwendige Voraussetzung. Die Erstellung dieses Datensatzes ist arbeitsintensiv, aber unerlässlich. Ohne ihn können Teams echte Verbesserungen bei der RAG-Evaluierung nicht von zufälligen Abweichungen unterscheiden.

Faktentreue der Generierung messen

Die Bewertung der Generierung misst, ob die Antworten des Modells dem abgerufenen Kontext gegenüber faktentreu sind – also ob die generierte Antwort falsche oder erfundene Informationen enthält, die aus den Trainingsdaten des Modells statt aus den abgerufenen Quellen stammen. Die „LLM-as-Judge“-Bewertung, bei der ein zweites LLM jede Antwort auf ihre Faktentreue hin bewertet, bietet eine skalierbare Abdeckung über große Testsets hinweg. Die LLM-Evaluierung mit MLflow integriert Abruf- und Generierungsmetriken in ein einheitliches Framework zur Verfolgung von Experimenten. RAG reduziert Halluzinationen in generativen AI-Modellen, kann jedoch nicht alle AI-Halluzinationen in den generierten Antworten vollständig ausschließen.

Überwachung, Governance und Sicherheit

RAG-Systeme übernehmen die Governance-Anforderungen ihrer Datenquellen. Benutzer sollten nur Dokumente abrufen können, für die sie eine Zugriffsberechtigung haben. Unity Catalog bietet eine feingranulare Governance für die gesamte RAG-Wissensdatenbank – Vektorindizes, Delta-Tabellen und Modell-Endpunkte werden unter einem gemeinsamen Zugriffskontrollmodell mit vollständiger Verfolgung der Data Lineage verwaltet. Provenienz-Tagging – also die Verknüpfung jeder generierten Antwort mit den spezifischen Dokumenten-Chunks, die sie hervorgebracht haben – ermöglicht es menschlichen Prüfern, zitierte Quellen zu verifizieren und AI-generierte Inhalte zu prüfen. In regulierten Branchen ist der Nachweis der Provenienz oft eine Compliance-Anforderung.

Das Monitoring sollte auch die Veraltung der Wissensdatenbank erfassen – also die Spanne zwischen der letzten Aktualisierung der Quelldokumente und der letzten Aktualisierung des RAG-Index. Eine Wissensdatenbank, die ständig veraltete Dokumente zurückgibt, entspricht im Betrieb einem LLM mit einem veralteten Trainings-Cutoff. Beide liefern Antworten, die zu einem bestimmten Zeitpunkt zwar korrekt waren, aber nicht mehr den aktuellen Stand widerspiegeln. Automatische Veraltungswarnungen, die ausgelöst werden, wenn ein Quelldokument nicht innerhalb einer definierten SLA neu indiziert wurde, verhindern eine schleichende Verschlechterung der Antwortgenauigkeit im Laufe der Zeit.

Vector Stores sollten im Ruhezustand verschlüsselt sein, Embedding- und LLM-Inferenz-Endpunkte sollten innerhalb sicherer Netzwerkgrenzen bereitgestellt werden, und Audit-Logs sollten alle Anfragen und Abrufereignisse erfassen, um ungewöhnliche Zugriffe zu erkennen.

Rollenbasierte Zugriffskontrollen auf der Abrufebene sind besonders wichtig bei mandantenfähigen RAG-Bereitstellungen, bei denen verschiedene Benutzer oder Teams nur Dokumente aus ihren autorisierten Datendomänen abrufen dürfen. Ohne Zugriffskontrollen auf der Abrufebene könnte eine Benutzeranfrage vertrauliche Dokumente aus einer nicht betroffenen Geschäftseinheit offenlegen – ein Fehler in der Data Governance, der in der generierten Antwort unsichtbar ist, aber im zugrunde liegenden Abrufprotokoll auftaucht. Die Integration von Zugriffskontrollen in die RAG-Architektur von Anfang an ist erheblich einfacher als deren nachträgliche Implementierung, nachdem die Daten bereits indiziert wurden.

Betriebliche Skalierung und Best Practices für die Bereitstellung

Das erstmalige Einlesen einer großen Wissensdatenbank erfordert Batch-Embedding in großem Maßstab. Nach dem ersten Laden werden beim inkrementellen Einlesen nur neue oder aktualisierte Dokumente neu eingebettet. Systeme sollten die Rechenleistung für das Embedding beim ersten Laden automatisch skalieren und für laufende inkrementelle Aktualisierungen herunterskalieren. Batch-Embedding ist pro Dokument erheblich günstiger als Echtzeit-Embedding. Produktionssysteme sollten die Batch-Verarbeitung für Ingestion-Workloads nutzen und Echtzeit-Embedding für die Verarbeitung von Benutzeranfragen reservieren.

Die LLM-Inferenz macht in der Regel den Großteil der RAG-Betriebskosten aus. Die Weitergabe von mehr abgerufenen Dokumenten an das LLM erhöht die Inferenzkosten pro Anfrage proportional. Teams sollten explizite Richtlinien für die maximale Anzahl abgerufener Dokumente und die Prompt-Länge festlegen, um die Kosten zu begrenzen. Jede Komponente – Embedding-Inferenz, Vector Store, Orchestrierungsdienst, LLM-Endpunkt – sollte für eine reproduzierbare Bereitstellung containerisiert werden, inklusive Wiederholungslogik und Circuit-Breaker-Mustern für Ausfallsicherheit.

Databricks MLflow bietet Experiment-Tracking, eine Modellregistrierung und Evaluierungstools, die in den gesamten RAG-Stack integriert sind. So können Teams Embedding-Modelle versionieren, Abruf-Experimente verfolgen und den Lebenszyklus von RAG-Pipelines in der Produktion verwalten.

Häufig gestellte Fragen

Wie unterscheidet sich der RAG-Workflow vom Fine-Tuning eines LLMs?

Der RAG-Workflow ruft relevante Dokumente während der Inferenz ab und fügt sie in den LLM-Prompt ein, während Fine-Tuning die Modellgewichte durch Training mit neuen Daten vor der Bereitstellung anpasst. RAG bietet dynamischen Zugriff auf aktuelle Informationen, ohne das Modell neu trainieren zu müssen, was es für sich häufig änderndes Wissen kosteneffizienter macht. Fine-Tuning eignet sich besser zur Anpassung des Antwortstils, des Domänenvokabulars oder der Aufgabenspezialisierung. Die meisten Produktivsysteme kombinieren beides: ein feinabgestimmtes Modell für den passenden Tonfall der Domäne, kombiniert mit einem RAG-Workflow für den Wissenszugriff.

Was ist die häufigste Fehlerquelle in einem RAG-System?

Eine unzureichende Abrufqualität ist die häufigste RAG-Fehlerquelle. Wenn die Komponente für den Informationsabruf irrelevante Dokumente zurückgibt, generiert das LLM Antworten, die zwar überzeugend wirken, aber nicht auf korrekten Informationen basieren – ein Fehler, der schwerer zu erkennen ist als offensichtliche Halluzinationen. Abruffehler resultieren aus unzureichendem Chunking, einer Diskrepanz zwischen dem semantischen Raum des Embedding-Modells und der Abfrageverteilung, unzureichender Abdeckung durch hybride Suche oder einer Wissensdatenbank, der schlichtweg die von den Benutzern gesuchten Informationen fehlen. Die separate Bewertung der Abrufpräzision und der Genauigkeit der Generierung ist für die Diagnose dieser Fehlerklasse unerlässlich.

Wie reduziert RAG AI-Halluzinationen?

RAG reduziert Halluzinationen in generativen AI-Modellen, indem es dem LLM für jede Anfrage einen spezifischen, verifizierten Kontext bereitstellt, anstatt zu verlangen, dass das Modell aus dem Gedächtnis antwortet. Wenn der Prompt das Modell explizit anweist, nur auf Basis des abgerufenen Kontexts zu antworten, hat das Modell weniger Spielraum, Informationen frei zu erfinden. Die Reduzierung verhält sich proportional zur Abrufqualität – je relevanter und vollständiger die abgerufenen Dokumente sind, desto weniger muss das Modell selbst herleiten. RAG kann nicht alle AI-Halluzinationen vollständig ausschließen, da Modelle gelegentlich den abgerufenen Kontext missinterpretieren. Es reduziert deren Häufigkeit jedoch erheblich im Vergleich zur Generierung ohne Abruf.

Welche externen Datenquellen eignen sich am besten für RAG?

Informationsdichte, domänenspezifische Quellen liefern die besten Abrufergebnisse: Produktdokumentationen, technische Wissensdatenbanken, Richtliniendokumente von Unternehmen und kuratierte interne Repositories. Quellen mit einheitlicher Formatierung und klaren Absatzgrenzen lassen sich zuverlässiger in Chunks aufteilen und einbetten als lose strukturierte Inhalte. Externe Wissensquellen von Drittanbietern – wie behördliche Einreichungen, Branchenstandards oder wissenschaftliche Literatur – erweitern die Abdeckung über proprietäre Inhalte hinaus. RAG-Systeme hängen stark von der Qualität der externen Datenquellen ab. Ungenaue oder uneinheitlich formatierte Quelldokumente führen unabhängig von der Qualität der Abrufarchitektur zu ungenauen Antworten.

Was sind die Hauptkomponenten einer RAG-Architektur?

Eine RAG-Architektur umfasst vier Hauptkomponenten: die Wissensdatenbank (den indexierten externen Datenspeicher), den Retriever (die Komponente für den Informationsabruf, die relevante Dokumente bereitstellt), die Integrationsschicht (die Orchestrierungslogik, die den Kontext in einen LLM-Prompt einfügt) und den Generator (das Large Language Model, das die endgültige Antwort generiert). Die Vektordatenbank ist ein entscheidendes Infrastrukturelement der Wissensdatenbank. Sie speichert numerische Repräsentationen von Dokument-Chunks und ermöglicht eine schnelle semantische Ähnlichkeitssuche. Erfahren Sie mehr über Architekturmuster für Retrieval-Augmented Generation auf der Databricks-Glossarseite.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen