Eine Methode zur Verbesserung von LLM-Antworten, bei der vor der Generierung relevante Informationen aus externen Wissensdatenbanken abgerufen werden, um faktenbasierte Ergebnisse zu liefern.
Retrieval Augmented Generation (RAG) ist ein hybrides AI-Framework, das Large Language Models (LLMs) durch die Kombination mit externen, aktuellen Datenquellen optimiert. Anstatt sich ausschließlich auf statische Trainingsdaten zu verlassen, ruft RAG bei einer Abfrage relevante Dokumente ab und stellt sie dem Modell als Kontext zur Verfügung. Durch die Einbindung neuer und kontextbezogener Daten kann die AI präzisere, aktuellere und domänenspezifische Antworten generieren.
RAG entwickelt sich schnell zur Standardarchitektur für die Erstellung von AI-Anwendungen auf Unternehmensebene. Jüngsten Umfragen zufolge entwickeln über 60 % der Unternehmen AI-gestützte Retrieval-Tools, um die Zuverlässigkeit zu verbessern, Halluzinationen zu reduzieren und Ergebnisse mithilfe interner Daten zu personalisieren.
Da generative AI zunehmend in Geschäftsbereichen wie dem Kundenservice, dem internen Wissensmanagement und der Compliance Einzug hält, macht die Fähigkeit von RAG, die Lücke zwischen allgemeiner AI und spezifischem Unternehmenswissen zu schließen, diese Technologie zu einer unverzichtbaren Grundlage für vertrauenswürdige Praxiseinsätze.
RAG verbessert die Ausgabe eines Sprachmodells, indem es diese mit kontextbezogenen und Echtzeit-Informationen anreichert, die aus einer externen Datenquelle abgerufen werden. Wenn ein Benutzer eine Anfrage stellt, spricht das System zuerst das Retrieval-Modell an. Dieses nutzt eine Vektordatenbank, um semantisch ähnliche Dokumente, Datenbanken oder andere Quellen nach relevanten Informationen zu durchsuchen und diese abzurufen („retrieve“). Sobald diese identifiziert sind, kombiniert das System die Ergebnisse mit dem ursprünglichen Prompt und sendet sie an ein generatives AI-Modell, das die neuen Informationen in seine Antwort einarbeitet.
Dadurch kann das LLM präzisere, kontextbezogene Antworten liefern, die auf unternehmensspezifischen oder aktuellen Daten basieren, anstatt sich lediglich auf das Modell zu verlassen, mit dem es trainiert wurde.
RAG-Pipelines umfassen in der Regel vier Schritte: Dokumentenvorbereitung und Chunking, Vektorindizierung, Retrieval (Abruf) und Prompt-Augmentierung (Erweiterung). Dieser Prozessablauf hilft Entwicklern, Datenquellen zu aktualisieren, ohne das Modell neu trainieren zu müssen. Dies macht RAG zu einer skalierbaren und kosteneffizienten Lösung für die Erstellung von LLM-Anwendungen in Bereichen wie Kundensupport, Wissensdatenbanken und interner Suche.
LLMs nutzen Deep-Learning-Modelle und werden auf riesigen Datensätzen trainiert, um neue Inhalte zu verstehen, zusammenzufassen und zu generieren. Die meisten LLMs werden mit einer breiten Palette öffentlicher Daten trainiert, sodass ein einziges Modell auf viele Arten von Aufgaben oder Fragen reagieren kann. Nach dem Training haben viele LLMs keine Möglichkeit mehr, auf Daten zuzugreifen, die nach dem Redaktionsschluss ihrer Trainingsdaten (Cutoff-Date) liegen. Dies macht LLMs statisch und kann dazu führen, dass sie falsch antworten, veraltete Informationen liefern oder halluzinieren, wenn ihnen Fragen zu Daten gestellt werden, auf denen sie nicht trainiert wurden.
Damit LLMs relevante und spezifische Antworten geben können, müssen Unternehmen sicherstellen, dass das Modell ihre Domäne versteht und Antworten auf Basis ihrer eigenen Daten liefert, anstatt allgemeine Antworten zu geben. Beispielsweise entwickeln Unternehmen Kundensupport-Bots mit LLMs, und diese Lösungen müssen unternehmensspezifische Antworten auf Kundenfragen liefern. Andere entwickeln interne Q&A-Bots, die Fragen von Mitarbeitern zu internen HR-Daten beantworten sollen. Wie können Unternehmen solche Lösungen entwickeln, ohne diese Modelle neu trainieren zu müssen?
Eine einfache und beliebte Methode zur Nutzung eigener Daten besteht darin, diese als Teil des Prompts bereitzustellen, mit dem Sie das LLM-Modell abfragen. Dies wird als Retrieval Augmented Generation (RAG) bezeichnet, da Sie die relevanten Daten abrufen und als erweiterten Kontext für das LLM verwenden. Anstatt sich ausschließlich auf das aus den Trainingsdaten abgeleitete Wissen zu verlassen, ruft ein RAG-Workflow relevante Informationen ab und verbindet statische LLMs mit dem Datenabruf in Echtzeit.
Mit der RAG-Architektur können Unternehmen jedes beliebige LLM-Modell bereitstellen und es so erweitern, dass es relevante Ergebnisse für ihr Unternehmen liefert, indem sie ihm eine kleine Menge ihrer Daten zur Verfügung stellen – ohne die Kosten und den Zeitaufwand für das Fine-Tuning oder Vortrainieren des Modells.
Es gibt viele verschiedene Anwendungsfälle für RAG. Die häufigsten sind:
Frage-Antwort-Chatbots: Durch die Integration von LLMs in Chatbots können diese automatisch präzisere Antworten aus Unternehmensdokumenten und Wissensdatenbanken ableiten. Chatbots werden eingesetzt, um den Kundensupport und das Nachfassen von Website-Leads zu automatisieren, um Fragen schnell zu beantworten und Probleme rasch zu lösen.
Beispielsweise wollte Experian, ein multinationaler Datenvermittler und Kreditauskunftei, einen Chatbot für interne und kundenorientierte Anforderungen entwickeln. Sie stellten schnell fest, dass ihre aktuellen Chatbot-Technologien Schwierigkeiten hatten, mit der Nachfrage zu skalieren. Durch den Aufbau ihres GenAI-Chatbots – Latte – auf der Databricks Data Intelligence Platform war Experian in der Lage, die Prompt-Verarbeitung und die Modellgenauigkeit zu verbessern. Dies gab ihren Teams mehr Flexibilität, um mit verschiedenen Prompts zu experimentieren, Ergebnisse zu verfeinern und sich schnell an die Weiterentwicklung der GenAI-Technologie anzupassen.
Knowledge Engine: Fragen zu Ihren Daten stellen (z. B. HR- oder Compliance-Dokumente): Unternehmensdaten können als Kontext für LLMs verwendet werden, sodass Mitarbeiter problemlos Antworten auf ihre Fragen erhalten, einschließlich HR-Fragen zu Zusatzleistungen und Richtlinien sowie Sicherheits- und Compliance-Fragen.
Ein Beispiel für diesen Einsatz ist Cycle & Carriage, ein führender Automobilkonzern in Südostasien. Sie wandten sich an Databricks, um einen RAG-Chatbot zu entwickeln, der die Produktivität und das Kundenengagement verbessert, indem er auf ihre proprietären Wissensdatenbanken wie technische Handbücher, Kundensupport-Transkripte und Geschäftsprozessdokumente zugreift. Dies erleichterte es den Mitarbeitern, Informationen über Suchanfragen in natürlicher Sprache zu suchen, die kontextbezogene Antworten in Echtzeit liefern.
Der RAG-Ansatz bietet eine Reihe von entscheidenden Vorteilen, darunter:
RAG ist der richtige Ausgangspunkt, da es einfach und für einige Anwendungsfälle möglicherweise völlig ausreichend ist. Ein Fine-Tuning ist in anderen Situationen am besten geeignet, wenn man das Verhalten des LLM ändern oder eine andere „Sprache“ erlernen möchte. Diese Ansätze schließen sich nicht gegenseitig aus. Als zukünftiger Schritt kann ein Fine-Tuning des Modells in Betracht gezogen werden, damit es die Domänensprache und das gewünschte Ausgabeformat besser versteht – während gleichzeitig RAG genutzt wird, um die Qualität und Relevanz der Antwort zu verbessern.
Es gibt vier Architekturmuster, die bei der Anpassung einer LLM-Anwendung an die Daten Ihres Unternehmens zu berücksichtigen sind. Diese Techniken sind im Folgenden beschrieben und schließen sich nicht gegenseitig aus. Vielmehr können (und sollten) sie kombiniert werden, um die jeweiligen Stärken optimal zu nutzen.
| Methode | Definition | Hauptanwendungsfall | Datenanforderungen | Vorteile | Überlegungen |
|---|---|---|---|---|---|
Prompt-Engineering | Erstellung spezialisierter Prompts zur Steuerung des LLM-Verhaltens | Schnelle, spontane Modellsteuerung | Keine | Schnell, kostengünstig, kein Training erforderlich | Weniger Kontrolle als beim Fine-Tuning |
Retrieval-Augmented Generation (RAG) | Kombination eines LLM mit externem Wissensabruf | Dynamische Datensätze und externes Wissen | Externe Wissensdatenbank oder Datenbank (z. B. Vektordatenbank) | Dynamisch aktualisierter Kontext, verbesserte Genauigkeit | Erhöht die Prompt-Länge und den Rechenaufwand bei der Inferenz |
Fine-Tuning | Anpassung eines vortrainierten LLM an spezifische Datensätze oder Domänen | Spezialisierung auf Domänen oder Aufgaben | Tausende domänenspezifische oder instruktionsbasierte Beispiele | Granulare Kontrolle, hohe Spezialisierung | Erfordert gelabelte Daten, Rechenaufwand |
Vortraining | Training eines LLM von Grund auf | Einzigartige Aufgaben oder domänenspezifische Unternehmen | Große Datensätze (Milliarden bis Billionen von Token) | Maximale Kontrolle, maßgeschneidert für spezifische Anforderungen | Extrem ressourcenintensiv |
Unabhängig von der gewählten Methode stellt die Entwicklung einer gut strukturierten, modularisierten Lösung sicher, dass Unternehmen für Iterationen und Anpassungen gerüstet sind. Erfahren Sie mehr über diesen Ansatz und vieles mehr in The Big Book of MLOps.

Die Implementierung von RAG in großem Maßstab bringt verschiedene technische und betriebliche Herausforderungen mit sich.
Es gibt viele Möglichkeiten, ein Retrieval-Augmented-Generation-System zu implementieren, je nach den spezifischen Anforderungen und Datennuancen. Im Folgenden finden Sie einen häufig verwendeten Workflow, der ein grundlegendes Verständnis des Prozesses vermittelt.

Databricks empfiehlt außerdem einige wichtige Architekturelemente einer RAG-Architektur:
JetBlue hat „BlueBot“ eingeführt, einen Chatbot, der auf Open-Source-Modellen für generative AI basiert, durch Unternehmensdaten ergänzt wird und von Databricks unterstützt wird. Dieser Chatbot kann von allen Teams bei JetBlue genutzt werden, um auf Daten zuzugreifen, die durch Rollen gesteuert werden. Beispielsweise kann das Finanzteam Daten aus SAP und behördlichen Einreichungen einsehen, während das Betriebsteam nur Wartungsinformationen sieht.
Lesen Sie auch diesen Artikel.
Chevron Phillips Chemical nutzt Databricks zur Unterstützung seiner Initiativen im Bereich der generativen AI, einschließlich der Automatisierung von Dokumentenprozessen.
Thrivent Financial untersucht generative AI, um die Suche zu verbessern, besser zusammengefasste und zugänglichere Erkenntnisse zu gewinnen und die Produktivität im Engineering zu steigern.
Es stehen viele Ressourcen zur Verfügung, um weitere Informationen über RAG zu erhalten, darunter:
Kontaktieren Sie Databricks, um eine Demo zu vereinbaren und mit uns über Ihre LLM- und Retrieval Augmented Generation (RAG)-Projekte zu sprechen
RAG entwickelt sich rasant von einer provisorischen Behelfslösung zu einer grundlegenden Komponente der AI-Architektur in Unternehmen. Da LLMs immer leistungsfähiger werden, verändert sich auch die Rolle von RAG. Sie entwickelt sich von der bloßen Schließung von Wissenslücken hin zu Systemen, die strukturiert, modular und intelligenter sind.
Ein Weg, wie sich RAG weiterentwickelt, sind hybride Architekturen, bei denen RAG mit Tools, strukturierten Datenbanken und Agenten für Funktionsaufrufe kombiniert wird. In diesen Systemen sorgt RAG für eine unstrukturierte Fundierung, während strukturierte Daten oder APIs präzisere Aufgaben übernehmen. Diese multimodalen Architekturen bieten Unternehmen eine zuverlässigere End-to-End-Automatisierung.
Eine weitere wichtige Entwicklung ist das gemeinsame Training von Retriever und Generator (Retriever-Generator Co-Training). Dies ist ein Modell, bei dem der RAG-Retriever und der Generator gemeinsam trainiert werden, um die Antwortqualität des jeweils anderen zu optimieren. Dies kann den Bedarf an manuellem Prompt Engineering oder Fine-Tuning verringern und führt zu Aspekten wie adaptivem Lernen, weniger Halluzinationen und einer besseren Gesamtleistung von Retrievern und Generatoren.
Mit zunehmender Reife der LLM-Architekturen wird RAG voraussichtlich nahtloser und kontextbezogener werden. Diese neuen Systeme gehen über begrenzte Speicher- und Informationsbestände hinaus und werden in der Lage sein, Echtzeit-Datenströme, dokumentenübergreifende logische Schlussfolgerungen und persistenten Speicher zu verarbeiten, was sie zu sachkundigen und vertrauenswürdigen Assistenten macht.
Was ist Retrieval Augmented Generation (RAG)?
RAG ist eine AI-Architektur, die LLMs stärkt, indem sie relevante Dokumente abruft und in den Prompt einfügt. Dies ermöglicht präzisere, aktuellere und domänenspezifische Antworten, ohne dass Zeit für das erneute Trainieren des Modells aufgewendet werden muss.
Wann sollte ich RAG anstelle von Fine-Tuning verwenden?
Verwenden Sie RAG, wenn Sie dynamische Daten einbinden möchten, ohne die Kosten oder die Komplexität von Fine-Tuning in Kauf nehmen zu müssen. Es ist ideal für Anwendungsfälle, in denen präzise und aktuelle Informationen erforderlich sind.
Reduziert RAG Halluzinationen bei LLMs?
Ja. Indem die Antwort des Modells auf abgerufenen, aktuellen Inhalten basiert, verringert RAG die Wahrscheinlichkeit von Halluzinationen. Dies gilt insbesondere für Bereiche, die eine hohe Genauigkeit erfordern, wie das Gesundheitswesen, juristische Arbeiten oder den Support in Unternehmen.
Welche Art von Daten benötigt RAG?
RAG verwendet unstrukturierte Textdaten – wie PDFs, E-Mails und interne Dokumente –, die in einem abrufbaren Format gespeichert sind. Diese werden in der Regel in einer Vektordatenbank gespeichert, und die Daten müssen indexiert und regelmäßig aktualisiert werden, um ihre Relevanz zu behalten.
Wie bewertet man ein RAG-System?
RAG-Systeme werden mithilfe einer Kombination aus Relevanzbewertung, Groundedness-Prüfungen, menschlichen Bewertungen und aufgabenspezifischen Leistungskennzahlen evaluiert. Aber wie wir gesehen haben, könnten die Möglichkeiten des gemeinsamen Trainings von Retriever und Generator die regelmäßige Evaluierung erleichtern, da die Modelle voneinander lernen und sich gegenseitig trainieren.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.