Retrieval Augmented Generation

Übersicht

Erfahren Sie, wie die erweiterte Generierung durch Abruf (RAG) funktioniert, indem sie große Sprachmodelle (LLMs) mit Echtzeit-externen Daten kombiniert, um genauere und relevantere Outputs zu erzeugen.
Sehen Sie, wie RAG spezifische Probleme löst, wie beispielsweise die Reduzierung von Halluzinationen und das Liefern von domänenspezifischen Antworten, alles ohne kostspieliges Neutraining.
Erkunden Sie reale Anwendungsfälle für RAG und zukünftige Trends in Branchen wie Kundensupport, Compliance und Unternehmenssuche.

Was ist Retrieval Augmented Generation (RAG)?

Retrieval Augmented Generation (RAG) ist ein hybrider AI-Rahmen, der große Sprachmodelle (LLMs) durch Kombination mit externen, aktuellen Datenquellen stärkt. Anstatt sich ausschließlich auf statische Trainingsdaten zu verlassen, ruft RAG relevante Dokumente zur Abfragezeit ab und speist sie als Kontext in das Modell ein. Durch die Einbeziehung neuer und kontextbezogener Daten kann KI genauere, aktuellere und domänenspezifische Antworten generieren.

RAG entwickelt sich schnell zur bevorzugten Architektur für den Aufbau von unternehmensweiten KI-Anwendungen. Nach jüngsten Umfragen entwickeln über 60% der Organisationen KI-gestützte Suchtools, um die Zuverlässigkeit zu verbessern, Halluzinationen zu reduzieren und die Ausgabe mithilfe interner Daten zu personalisieren.

Da generative KI in Geschäftsfunktionen wie Kundenservice, internes Wissensmanagement und Compliance expandiert, ist die Fähigkeit von RAG, die Lücke zwischen allgemeiner KI und spezifischem organisatorischem Wissen zu überbrücken, eine wesentliche Grundlage für vertrauenswürdige, realweltliche Implementierungen.

Ähnliche Themen erkunden

2022-06-Big-Book-of-MLOps-TY-TN-362x190-2x

Das große Buch der MLOps

Pflichtlektüre für ML-Engineers und Data Scientists, die nach einer besseren Methode zur Durchführung von MLOps suchen

E-Book herunterladen

Erweitern Sie Ihre LLMs mit RAG

Wie man mit RAG mehr aus der generativen KI herausholen kann.

JETZT HERUNTERLADEN

Databricks belegt Platz 1 in den Kategorien „Execution“ und „Vision“

Gartner® Magic Quadrant™ for Data Science and Machine Learning Platforms 2024.

Jetzt lesen

Wie RAG funktioniert

RAG verbessert die Ausgabe eines Sprachmodells, indem es diese mit kontextbezogenen und Echtzeit-Informationen bereichert, die aus einer externen Datenquelle abgerufen werden. Wenn ein Benutzer eine Anfrage stellt, aktiviert das System zuerst das Abrufmodell, welches eine Vektordatenbank nutzt, um semantisch ähnliche Dokumente, Datenbanken oder andere Quellen für relevante Informationen zu identifizieren und "abzurufen". Sobald diese identifiziert sind, kombiniert es diese Ergebnisse mit dem ursprünglichen Eingabeaufforderung und sendet sie an ein generatives KI-Modell, welches die neuen Informationen in sein eigenes Modell einfügt.

Dies ermöglicht es dem LLM, genauere, kontextbewusste Antworten zu liefern, die auf unternehmensspezifischen oder aktuellen Daten basieren, anstatt sich einfach auf das Modell zu verlassen, auf dem es trainiert wurde.

RAG-Pipelines umfassen in der Regel vier Schritte: Dokumentvorbereitung und Aufteilung, Vektor-Indizierung, Abruf und Erweiterung der Eingabeaufforderung. Dieser Prozessablauf hilft Entwicklern, Datenquellen zu aktualisieren, ohne das Modell neu zu trainieren, und macht RAG zu einer skalierbaren und kosteneffektiven Lösung für den Aufbau von LLM-Anwendungen in Bereichen wie Kundensupport, Wissensdatenbanken und interner Suche.

Welche Herausforderungen löst der RAG-Ansatz?

Problem 1: LLM-Modelle kennen Ihre Daten nicht

LLMs nutzen Deep-Learning-Modelle und trainieren mit riesigen Datasets, um Daten zu verstehen und zusammenzufassen und neue Inhalte zu generieren. Die meisten LLMs werden mit einer breiten Palette öffentlicher Daten trainiert, damit ein Modell viele verschiedene Arten von Aufgaben oder Fragen lösen kann. Nach dem Training können viele LLMs nicht mehr auf Daten zugreifen, die über ihren Trainingsdatenbestand hinausgehen. Dadurch werden LLMs statisch und können fehlerhaft reagieren, veraltete Antworten geben oder halluzinieren, wenn ihnen Fragen zu Daten gestellt werden, für die sie nicht trainiert wurden.

Problem 2: KI-Anwendungen müssen maßgeschneiderte Daten nutzen, um effektiv zu sein

Damit LLMs relevante und konkrete Antworten geben können, müssen die Unternehmen dafür sorgen, dass das Modell das betreffende Fachgebiet versteht und Antworten auf der Grundlage seiner Daten liefert, anstatt allgemeine und pauschale Antworten zu geben. Unternehmen entwickeln beispielsweise Kundensupport-Bots mit LLMs, und diese Lösungen sollen unternehmensspezifische Antworten auf Kundenfragen geben. Andere arbeiten an internen Q&A-Bots, die Fragen von Mitarbeitern zu internen HR-Daten beantworten sollen. Wie können Unternehmen solche Lösungen entwickeln, ohne diese Modelle neu zu trainieren?

Lösung: Retrieval Augmentation Generation – der neue Industriestandard

Eine gleichermaßen einfache wie beliebte Möglichkeit, eigene Daten zu verwenden, besteht darin, sie als Teil des Prompts anzugeben, mit dem Sie das LLM-Modell abfragen. Dies wird als Retrieval Augmented Generation (RAG) bezeichnet: Sie rufen relevante Daten ab und nutzen sie als erweiterten Kontext für das LLM. Statt sich also ausschließlich auf das aus den Trainingsdaten abgeleitete Wissen zu verlassen, zieht ein RAG-Workflow relevante Informationen heran und verbindet statische LLMs mit Echtzeitdatenabfragen.

Mit der RAG-Architektur können Unternehmen jedes beliebige LLM-Modell einsetzen und es so erweitern, dass es relevante Ergebnisse für ihr Unternehmen liefert, indem sie ihm eine kleine Menge ihrer Daten zur Verfügung stellen. Dabei fallen weder Kosten noch Zeit für Fine-Tuning oder Pre-Training des Modells an.

Welche Anwendungsfälle gibt es für RAG?

Für RAG gibt es viele verschiedene Anwendungsfälle. Die gängigsten sind nachstehend aufgeführt:

Chatbots für Fragen und Antworten: Die Einbindung von LLMs in Chatbots ermöglicht diesen, automatisch bessere Antworten aus Unternehmensdokumenten und Wissensdatenbanken abzuleiten. Chatbots werden zur Automatisierung des Kundensupports und zum Nachfassen bei auf der Website gewonnenen Leads eingesetzt, denn sie können Fragen schnell beantworten und Probleme lösen.
Zum Beispiel wollte Experian, ein multinationales Datenbroker- und Verbraucherkreditberichtsunternehmen, einen Chatbot erstellen, um interne und kundengerichtete Bedürfnisse zu erfüllen. Sie stellten schnell fest, dass ihre aktuellen Chatbot-Technologien Schwierigkeiten hatten, sich an die Nachfrage anzupassen. Durch den Aufbau ihres GenAI-Chatbots - Latte - auf der Databricks Data Intelligence Platform konnte Experian die Handhabung von Aufforderungen und die Modellgenauigkeit verbessern, was ihren Teams eine größere Flexibilität bot, mit verschiedenen Aufforderungen zu experimentieren, Ausgaben zu verfeinern und sich schnell an Entwicklungen in der GenAI-Technologie anzupassen.
Erweiterung von Suchfunktionen: Durch das Einbinden von LLMs in Suchmaschinen, die ihre Ergebnisse mit von den LLMs generierten Antworten anreichern, können Informationsanfragen besser beantwortet werden. So wird es für Nutzer einfacher, genau diejenigen Informationen zu finden, die sie für ihre Arbeit benötigen.
Wissens-Engine: Stellen Sie Fragen zu Ihren Daten (z. B. Personaldaten, Compliance-Dokumente usw.): Unternehmensdaten können als Kontext für LLMs verwendet werden und ermöglichen es Mitarbeitern, auf einfache Weise Antworten auf ihre Fragen zu erhalten. Hierzu gehören etwa HR-Fragen zu Leistungen und Richtlinien oder Fragen zu Sicherheit und Compliance.
Eine Möglichkeit, wie dies eingesetzt wird, ist bei Cycle & Carriage, einer führenden Automobilgruppe in Südostasien. Sie wandten sich an Databricks Mosaic AI, um einen RAG-Chatbot zu entwickeln, der die Produktivität und Kundenbindung verbessert, indem er auf ihre proprietären Wissensdatenbanken, wie technische Handbücher, Kundendiensttranskripte und Geschäftsprozessdokumente, zugreift. Dies erleichterte es den Mitarbeitern, Informationen über natürliche Sprachabfragen zu suchen, die kontextbezogene, Echtzeit-Antworten liefern.

Welche Vorteile bietet RAG?

Der RAG-Ansatz bietet eine Reihe wesentlicher Vorteile:

Er liefert aktuelle und fehlerfreie Antworten: RAG sorgt dafür, dass die Reaktion eines LLM nicht nur auf statischen, veralteten Trainingsdaten basiert. Stattdessen nutzt das Modell aktuelle externe Datenquellen, um Antworten zu geben.
Er sorgt für weniger falsche Antworten oder Halluzinationen: Indem die Ausgabe des LLM-Modells auf relevantes externes Wissen aufsetzt, versucht RAG, das Risiko falscher oder erfundener Informationen (sogenannter „Halluzinationen“) zu vermeiden. Die Ausgaben können Zitate aus Originalquellen enthalten, sodass eine Überprüfung durch den Menschen möglich ist.
Er stellt fachspezifische und relevante Antworten bereit: Mithilfe von RAG kann das LLM kontextbezogene Antworten geben, die auf die unternehmenseigenen oder fachspezifischen Daten zugeschnitten sind.
Er ist hocheffizient und kostengünstig: Im Vergleich zu anderen Ansätzen zur Anpassung von LLMs mit fachspezifischen Daten ist RAG einfach und kostengünstig. Unternehmen können RAG sofort einsetzen, ohne das Modell anpassen zu müssen. Dies ist besonders vorteilhaft, wenn Modelle häufig mit neuen Daten aktualisiert werden müssen.

Wann sollte ich RAG verwenden und wann ist Fine-Tuning für das Modell angebracht?

RAG ist ein guter Einstiegspunkt, denn es ist unkompliziert und für manche Anwendungsfälle möglicherweise bereits völlig ausreichend. Fine-Tuning ist am besten in einer anderen Situation angebracht, nämlich dann, wenn man das Verhalten des LLM ändern möchte oder es eine andere „Sprache“ lernen soll. Dies schließt sich nicht gegenseitig aus. In einem zukünftigen Schritt könnte man ein Modell verfeinern, um die fachspezifische Sprache und die gewünschte Ausgabeform besser zu verstehen – und dann auch RAG verwenden, um Qualität und Relevanz der Antworten zu verbessern.

Ich möchte mein LLM mit Daten anpassen. Welche Möglichkeiten gibt es und welche Methode ist die beste (Prompt Engineering, RAG, Fine-Tuning, Pre-Training)?

Bei der Anpassung einer LLM-Anwendung an die Daten Ihres Unternehmens sind vier Architekturmuster zu berücksichtigen. Diese Techniken werden im Folgenden beschrieben und schließen sich nicht gegenseitig aus. Vielmehr können (und sollten) sie kombiniert werden, um die Stärken einer jeden zu nutzen.

Methode	Definition	Primärer Anwendungsfall	Datenanforderungen	Vorteile	Überlegungen
Prompt Engineering	Formulierung spezieller Prompts zur Steuerung des LLM-Verhaltens	Schnelle, spontane Modellführung	N/A	Schnell, kostengünstig, kein Training erforderlich	Weniger Kontrolle als beim Fine-Tuning
Retrieval Augmented Generation (RAG)	Kombiniert ein LLM mit externem Wissensabruf	Dynamische Datasets und externes Wissen	Externe Wissensbasis oder Datenbank (z. B. Vektordatenbank)	Dynamisch aktualisierter Kontext, höhere Fehlerfreiheit	Verlängert den Prompt und die Inferenzberechnung
Fine-Tuning	Passt ein vortrainiertes LLM an spezifische Datasets oder Fachgebiete an	Fach- oder Aufgabenspezialisierung	Tausende fachspezifische Beispiele oder Anleitungen	Granulare Kontrolle, hoher Spezialisierungsgrad	Erfordert gelabelte Daten und hohen Rechenaufwand
Pre-Training	Training eines LLM von Grund auf	Individuelle Aufgaben oder fachspezifische Korpora	Große Datasets (Milliarden oder Billionen Tokens)	Maximale Kontrolle, maßgeschneidert für hochspezielle Anforderungen	Äußerst ressourcenintensiv

Unabhängig von der gewählten Technik stellt der Aufbau einer gut strukturierten und modularisierten Lösung sicher, dass Unternehmen nach Bedarf iterieren und Anpassungen vornehmen können. Mehr über diesen Ansatz und weitere Informationen finden Sie im Big Book of MLOps.

Häufige Herausforderungen bei der Implementierung von RAG

Die Implementierung von RAG in großem Maßstab bringt verschiedene technische und betriebliche Herausforderungen mit sich.

Qualität der Abrufung. Selbst die leistungsfähigsten LLMs können schlechte Antworten liefern, wenn sie irrelevante oder minderwertige Dokumente abrufen. Daher ist es entscheidend, eine effektive Abrufpipeline zu entwickeln, die eine sorgfältige Auswahl von Einbettungsmodellen, Ähnlichkeitsmetriken und Ranking-Strategien beinhaltet.
Einschränkungen des Kontextfensters. Mit der gesamten Dokumentation der Welt zur Verfügung, können die Risiken darin bestehen, zu viel Inhalt in das Modell einzuspeisen, was zu abgeschnittenen Quellen oder verwässerten Antworten führen kann. Chunking-Strategien sollten semantische Kohärenz mit Token-Effizienz gewichten.
Aktualität der Daten Der Vorteil von RAG liegt in seiner Fähigkeit, aktuelle Informationen zu sammeln. Allerdings können Dokumentenindizes schnell veralten, wenn keine geplanten Datenerfassungsaufträge oder automatisierten Aktualisierungen durchgeführt werden. Indem Sie sicherstellen, dass Ihre Daten aktuell sind, können Sie Halluzinationen oder veraltete Antworten vermeiden.
Latenz. Bei der Arbeit mit großen Datensätzen oder externen APIs kann Latenz die Abrufung, Rangordnung und Generierung beeinträchtigen.
RAG Bewertung. Aufgrund der hybriden Natur von RAG sind herkömmliche KI-Bewertungsmodelle nicht ausreichend. Die Auswertung der Genauigkeit der Ausgaben erfordert eine Kombination aus menschlichem Urteilsvermögen, Relevanzbewertung und Überprüfungen auf Bodenständigkeit, um die Antwortqualität zu bewerten.

Was ist eine Referenzarchitektur für RAG-Anwendungen?

Je nach konkreten Anforderungen und Datennuancen gibt es viele Möglichkeiten, ein RAG-System zu implementieren. Nachstehend finden Sie einen häufig verwendeten Workflow, der Ihnen ein grundlegendes Verständnis des Prozesses vermitteln soll.

Daten aufbereiten: Die Dokumentdaten werden zusammen mit den Metadaten erfasst und einer ersten Vorverarbeitung unterzogen – z. B. für den Umgang mit personenbezogenen Daten (Erkennung, Filterung, Schwärzung, Ersetzung). Damit sie in RAG-Anwendungen verwendet werden können, müssen die Dokumente je nach Wahl des Einbettungsmodells und der nachgelagerten LLM-Anwendung, die diese Dokumente als Kontext verwendet, in geeignete Längen zerlegt werden.
Relevante Daten indizieren: Erzeugen Sie Dokumenteinbettungen und generieren Sie mit diesen Daten einen Vector Search-Index.
Relevante Daten abrufen: Abruf derjenigen Teile Ihrer Daten, die für die Anfrage eines Nutzers relevant sind. Diese Textdaten werden dann als Teil des Prompts bereitgestellt, der für das LLM verwendet wird.
LLM-Anwendungen entwickeln: Binden Sie die Bestandteile der Promptaugmentierung und der LLM-Abfrage in einen Endpoint ein. Dieser Endpoint kann dann Anwendungen wie Q&A-Chatbots über eine einfache REST-API zur Verfügung gestellt werden.

Databricks empfiehlt noch einige weitere wichtige Architekturelemente einer RAG-Architektur:

Vektordatenbank: Einige (wenn auch nicht alle) LLM-Anwendungen verwenden Vektordatenbanken für schnelle Ähnlichkeitssuchen, meist um Kontext- oder Fachwissen in LLM-Abfragen anzugeben. Damit das eingesetzte Sprachmodell auf aktuelle Informationen zugreifen kann, lassen sich regelmäßige Aktualisierungen der Vektordatenbank als Job planen. Beachten Sie, dass die Logik zum Abrufen von Informationen aus der Vektordatenbank und zum Einfügen von Informationen in den LLM-Kontext in das Modellartefakt gepackt werden kann, das in MLflow mit den MLflow-Modellvarianten LangChain oder PyFunc protokolliert wird.
MLflow LLM Deployments oder Model Serving: In LLM-basierten Anwendungen, in denen die LLM-API eines Drittanbieters verwendet wird, kann die Unterstützung von MLflow LLM Deployments oder Model Serving für externe Modelle als standardisierte Schnittstelle verwendet werden, um Anfragen von Anbietern wie OpenAI und Anthropic weiterzuleiten. MLflow LLM Deployments oder Model Serving ist nicht nur ein API-Gateway auf Unternehmensniveau, sondern zentralisiert außerdem die Verwaltung der API-Schlüssel und bietet die Möglichkeit, Kostenkontrollen zu implementieren.
Model Serving: Im Falle von RAG besteht bei Verwendung der API eines Drittanbieters eine wesentliche architektonische Änderung darin, dass die LLM-Pipeline externe API-Aufrufe vom Model-Serving-Endpoint zu internen LLM-APIs oder solchen von Drittanbietern ausführt. Dies führt zu mehr Komplexität, potenzieller Latenz und einer weiteren Ebene der Zugangsdatenverwaltung. Im Gegensatz dazu werden beim Beispiel des feinabgestimmten Modells das Modell und seine Modellumgebung implementiert.

Ressourcen

Databricks-Blogposts
- Mit MLflow AI Gateway und Llama 2 Apps für generative KI entwickeln
- Best Practices für die LLM-Auswertung von RAG-Anwendungen
Demo von Databricks
E-Book von Databricks: The Big Book of MLOps

Databricks-Kunden, die RAG nutzen

JetBlue

JetBlue hat „BlueBot“ implementiert. BlueBot ist ein Chatbot, der Open-Source-GenAI-Modelle nutzt und diese – gestützt auf Databricks – mit Unternehmensdaten ergänzt. Dieser Chatbot kann von allen Teams bei JetBlue genutzt werden, um auf Rollenbasis Zugriff auf Daten zu erhalten. So kann beispielsweise das Finanzteam Daten aus SAP und behördliche Unterlagen einsehen, während das Betriebsteam nur Wartungsinformationen erhält.

Lesen Sie auch diesen Artikel.

Chevron Phillips

Chevron Phillips Chemical nutzt Databricks zur Unterstützung seiner GenAI-Initiativen, etwa zur Automatisierung von Dokumentprozessen.

Thrivent Financial

Thrivent Financial setzt auf generative KI, um die Suchfunktion zu optimieren, bessere Zusammenfassungen und leichter zugängliche Erkenntnisse zu generieren und die Produktivität der Entwicklungsabteilung zu verbessern.

Wo finde ich weitere Informationen über Retrieval Augmented Generation?

Es gibt viele Ressourcen mit ausführlichen Informationen zu RAG, beispielsweise die folgenden:

Blogs

E-Books

Demos

Bereitstellung Ihres LLM-Chatbots mit Retrieval Augmented Generation (RAG), llama2-70B (MosaicML Inferences) und Vector Search

Setzen Sie sich mit Databricks in Verbindung, um einen Termin für eine Demo zu vereinbaren und mit einem Mitarbeiter über Ihre LLM- und RAG-Projekte zu sprechen.

Zukunft der RAG-Technologie

RAG entwickelt sich schnell von einer provisorischen Notlösung zu einer grundlegenden Komponente der Unternehmens-KI-Architektur. Da LLMs immer leistungsfähiger werden, verändert sich die Rolle von RAG. Es geht darum, nicht nur Wissenslücken zu schließen, sondern um Systeme, die strukturiert, modular und intelligenter sind.

Eine Möglichkeit, wie RAG sich entwickelt, sind hybride Architekturen, bei denen RAG mit Tools, strukturierten Datenbanken und Funktionsaufruf-Agenten kombiniert wird. In diesen Systemen bietet RAG eine unstrukturierte Grundlage, während strukturierte Daten oder APIs präzisere Aufgaben übernehmen. Diese multimodalen Architekturen bieten Organisationen eine zuverlässigere End-to-End-Automatisierung.

Eine weitere wichtige Entwicklung ist das gemeinsame Training von Abruf- und Generatorsystemen. Dies ist ein Modell, bei dem der RAG-Retriever und der Generator gemeinsam trainiert werden, um die Antwortqualität des jeweils anderen zu optimieren. Dies könnte die Notwendigkeit für manuelle Aufforderungs-Engineering oder Feinabstimmung reduzieren und führt zu Dingen wie adaptivem Lernen, reduzierten Halluzinationen und einer insgesamt besseren Leistung von Abrufsystemen und Generatoren.

Mit der Reifung der LLM-Architekturen wird RAG wahrscheinlich nahtloser und kontextbezogener werden. Jenseits von endlichen Speicherkapazitäten und Informationen werden diese neuen Systeme in der Lage sein, Echtzeit-Datenströme, Mehrdokumenten-Logik und dauerhaften Speicher zu bewältigen, was sie zu sachkundigen und vertrauenswürdigen Assistenten macht.

Häufig gestellte Fragen (FAQ)

Was ist Retrieval Augmented Generation (RAG)? RAG ist eine KI-Architektur, die LLMs stärkt, indem sie relevante Dokumente abruft und in die Eingabeaufforderung einfügt. Dies ermöglicht genauere, aktuellere und domänenspezifische Antworten, ohne dass Zeit für das erneute Training des Modells aufgewendet werden muss.

Wann sollte ich RAG anstelle von Fine-Tuning verwenden?
Verwenden Sie RAG, wenn Sie dynamische Daten einbeziehen möchten, ohne die Kosten oder Komplexität des Feinabstimmens. Es ist ideal für Anwendungsfälle, in denen genaue und zeitnahe Informationen erforderlich sind.

Reduziert RAG Halluzinationen in LLMs?
Ja. Indem das Modell seine Antworten auf abgerufene, aktuelle Inhalte gründet, reduziert RAG die Wahrscheinlichkeit von Halluzinationen. Dies ist insbesondere in Bereichen der Fall, die eine hohe Genauigkeit erfordern, wie im Gesundheitswesen, in der juristischen Arbeit oder im Unternehmenssupport.

Welche Art von Daten benötigt RAG?
RAG verwendet unstrukturierte Textdaten — denken Sie an Quellen wie PDFs, E-Mails und interne Dokumente — die in einem abrufbaren Format gespeichert sind. Diese werden in der Regel in einer Vektordatenbank gespeichert und die Daten müssen indexiert und regelmäßig aktualisiert werden, um die Relevanz zu erhalten.

Wie bewerten Sie ein RAG-System?
RAG-Systeme werden mit einer Kombination aus Relevanzbewertung, Überprüfungen auf Erdung, menschlichen Bewertungen und aufgabenbezogenen Leistungsmesswerten evaluiert. Aber wie wir gesehen haben, könnten die Möglichkeiten für das kooperative Training von Abruf- und Generatormodellen die regelmäßige Bewertung erleichtern, da die Modelle voneinander lernen und sich gegenseitig trainieren.

Zurück zum Glossar