Chatbots sind der am weitesten verbreitete Anwendungsfall für die Nutzung der leistungsstarken Chat- und Denkfähigkeiten von großen Sprachmodellen (LLM). Die RAG-Architektur (Retrieval Augmented Generation) entwickelt sich schnell zum Industriestandard für die Entwicklung von Chatbots, da sie die Vorteile einer Wissensdatenbank (über einen Vektorspeicher) und generativer Modelle (z. B. GPT-3.5 und GPT-4) kombiniert, um Halluzinationen zu reduzieren, aktuelle Informationen zu gewährleisten und domänenspezifisches Wissen zu nutzen. Die Bewertung der Qualität von Chatbot-Antworten bleibt jedoch bis heute ein ungelöstes Problem. Da keine Industriestandards definiert sind, greifen Unternehmen auf menschliche Bewertungen (Label) zurück – was zeitaufwendig und schwer zu skalieren ist.
Wir haben die Theorie in die Praxis umgesetzt, um Best Practices für die automatisierte Evaluierung von LLMs zu entwickeln, damit Sie RAG-Anwendungen schnell und zuverlässig in der Produktion bereitstellen können. Dieser Blogbeitrag ist der erste in einer Reihe von Untersuchungen, die wir bei Databricks durchführen, um Erkenntnisse zur LLM-Evaluierung zu liefern. Die gesamte Recherche in diesem Beitrag stammt von Quinn Leng, Senior Software Engineer bei Databricks und Schöpfer des Databricks Documentation KI Assistant.
Kürzlich hat die LLM-Community die Verwendung von „LLMs als Richter“ für die automatisierte Bewertung untersucht, wobei viele leistungsstarke LLMs wie GPT-4 für die Bewertung ihrer LLM-Ausgaben einsetzen. Die Forschungsarbeit der lmsys-Gruppe untersucht die Machbarkeit und die Vor- und Nachteile der Verwendung verschiedener LLMs (GPT-4, ClaudeV1, GPT-3.5) als Richter für Tasks in den Bereichen Schreiben, Mathematik und Allgemeinwissen.
Trotz all dieser großartigen Forschung gibt es immer noch viele offene Fragen zur praktischen Anwendung von LLM-Juroren:
Wir haben die möglichen Optionen für die oben genannten Fragen im Kontext unserer eigenen Chatbot-Anwendung bei Databricks untersucht. Wir glauben, dass sich unsere Ergebnisse verallgemeinern lassen und somit Ihrem Team helfen können, RAG-basierte Chatbots kostengünstiger und schneller zu evaluieren:
Basierend auf unserer Forschung empfehlen wir die folgende Vorgehensweise bei der Verwendung eines LLM-Richters:
Im weiteren Verlauf dieses Beitrags wird die Reihe der Experimente vorgestellt, die wir zur Entwicklung dieser Best Practices durchgeführt haben.

Das Experiment hatte drei Schritte:
Evaluierungs-Dataset generieren: Wir haben ein Dataset aus 100 Fragen und Kontext aus Databricks-Dokumenten erstellt. Der Kontext stellt (Teile von) Dokumenten dar, die für die Frage relevant sind.

Zusätzlich wurden die folgenden Techniken verwendet, um einen Positionsbias zu vermeiden und die Zuverlässigkeit zu verbessern:
Um die Übereinstimmung zwischen menschlichen Annotatoren und LLM-Juroren zu überprüfen, schickten wir Antwortbögen (Bewertungs-Scale 0–3) von gpt-3.5-turbo und vicuna-33b an ein Labeling-Unternehmen, um menschliche Labels zu sammeln. Anschließend verglichen wir das Ergebnis mit der Bewertungsausgabe von GPT-4. Nachfolgend die Ergebnisse:
Menschliche und GPT-4-Bewerter können eine Übereinstimmung von über 80 % bei der Bewertung von Korrektheit und Lesbarkeit erreichen. Und wenn wir die Anforderung auf eine Punktedifferenz von kleiner oder gleich 1 senken, kann der Übereinstimmungsgrad über 95 % erreichen.
![]() | ![]() |
Die Metrik für Vollständigkeit weist eine geringere Übereinstimmung auf, was dem Feedback von Business-Stakeholdern entspricht, die meinten, „vollständig“ sei subjektiver als Metriken wie Korrektheit oder Lesbarkeit.
Das lmsys-Paper verwendet diesen Prompt, um den LLM-Bewerter anzuweisen, die Antwort auf der Grundlage von Hilfreichkeit, Relevanz, Genauigkeit, Tiefe, Kreativität und Detaillierungsgrad zu bewerten. Das Paper teilt jedoch keine genauen Angaben zum Bewertungsraster mit. In unserer Forschung haben wir festgestellt, dass viele Faktoren das Endergebnis erheblich beeinflussen können, zum Beispiel:
Wir haben ein Bewertungsschema entwickelt, um einen LLM-Juror für eine bestimmte Bewertungs-Scale anzuweisen, indem wir Folgendes ausprobiert haben:
|
Wir haben den ursprünglichen Prompt des lmsys-Papers angepasst, um unsere Metriken für Korrektheit, Vollständigkeit und Lesbarkeit auszugeben, und den Bewerter außerdem aufgefordert, vor jeder Bewertung eine einzeilige Begründung zu liefern (um von der Chain-of-Thought-Argumentation zu profitieren). Nachfolgend finden Sie die Zero-Shot-Version des Prompts, die keine Beispiele enthält, und die Few-Shot-Version des Prompts, die für jede Bewertung ein Beispiel enthält. Anschließend haben wir dieselben Antwortbögen als Eingabe verwendet und die bewerteten Ergebnisse der beiden Prompt-Typen verglichen.
Aus diesem Experiment haben wir mehrere Erkenntnisse gewonnen:




Das Paper „LLM-as-judge“ verwendet eine nicht-ganzzahlige Scale von 0 bis 10 (d. h. float) für die Bewertungsskala; mit anderen Worten, es wird ein hochpräzises Bewertungsschema für die Endnote verwendet. Wir haben festgestellt, dass diese hochpräzisen Skalen bei den nachgelagerten Prozessen die folgenden Probleme verursachen:
Wir haben mit verschiedenen Bewertungsskalen mit niedriger Genauigkeit experimentiert, um eine Anleitung für die „beste“ Skala zu geben. Letztendlich empfehlen wir eine ganzzahlige Skala von 0–3 oder 0–4 (wenn Sie sich an die Likert -Skala halten möchten). Wir haben die Skalen 0–10, 1–5, 0–3 und 0–1 ausprobiert und dabei Folgendes gelernt:


Wie in den obigen Diagrammen gezeigt, können sowohl GPT-4 als auch GPT-3.5 bei Verwendung verschiedener Bewertungsskalen mit geringer Präzision ein konsistentes Ranking der Ergebnisse beibehalten. Daher kann die Verwendung einer niedrigeren Bewertungsskala wie 0~3 oder 1~5 die Präzision mit der Erklärbarkeit in Einklang bringen)
Daher empfehlen wir eine Skala von 0–3 oder 1–5, um die Abstimmung mit menschlichen Labels zu erleichtern, Bewertungskriterien nachzuvollziehen und Beispiele für jede Bewertung in dem Bereich anzugeben.
Das Paper LLM-as-judge zeigt, dass sowohl die LLM- als auch die menschliche Beurteilung das Vicuna-13B-Modell als nahen Konkurrenten zu GPT-3.5 einstufen:
(Die Abbildung stammt aus Abbildung 4 des LLM-as-judge-Papers: https://arxiv.org/pdf/2306.05685.pdf )
Als wir jedoch die Modellreihe für unsere Anwendungsfälle im Bereich Dokumenten-Q&A einem Benchmark unterzogen, stellten wir fest, dass selbst das viel größere Vicuna-33B-Modell eine merklich schlechtere Performance als GPT-3.5 bei der Beantwortung von Fragen auf der Grundlage von Kontext aufweist. Diese Ergebnisse werden auch von GPT-4, GPT-3.5 und menschlichen Juroren bestätigt (wie in Experiment 1 erwähnt), die alle darin übereinstimmen, dass Vicuna-33B eine schlechtere Leistung als GPT-3.5 erbringt.

Wir haben uns den im Paper vorgeschlagenen Benchmark-Datensatz genauer angesehen und festgestellt, dass die 3 Aufgabenkategorien (Schreiben, Mathematik, Wissen) die Fähigkeit des Modells, eine Antwort auf der Grundlage eines Kontexts zu synthetisieren, nicht direkt widerspiegeln oder dazu beitragen. Stattdessen benötigen Dokument-Q&A-Anwendungsfälle intuitiv Benchmarks für Leseverständnis und das Befolgen von Anweisungen. Daher können die Evaluierungsergebnisse nicht zwischen den Anwendungsfällen übertragen werden und wir müssen anwendungsfallspezifische Benchmarks erstellen, um richtig zu bewerten, wie gut ein Modell die Kundenbedürfnisse erfüllen kann.
Mit den obigen Experimenten haben wir untersucht, wie verschiedene Faktoren die Bewertung eines Chatbots maßgeblich beeinflussen können, und bestätigt, dass LLM-as-a-judge die menschlichen Präferenzen für den Anwendungsfall der Dokumenten-Q&A weitgehend widerspiegeln kann. Bei Databricks entwickeln wir die MLflow Evaluation API basierend auf diesen Erkenntnissen weiter, um Ihrem Team dabei zu helfen, Ihre LLM-Anwendungen effektiv zu bewerten. MLflow 2.4 hat die Evaluation API für LLMs eingeführt, um die Textausgaben verschiedener Modelle nebeneinander zu vergleichen, MLflow 2.6 hat LLM-basierte Metriken für die Evaluierung wie Toxizität und Perplexität eingeführt, und wir arbeiten daran, LLM-as-a-judge in naher Zukunft zu unterstützen!
In der Zwischenzeit haben wir die Liste der Ressourcen, die wir für unsere Recherche herangezogen haben, unten zusammengestellt:
IA generativa
January 7, 2025/8 min de leitura
Data Engineering
December 1, 2025/14 min de leitura


