Vor wenigen Tagen haben wir neue Funktionen für die Agentenentwicklung auf Databricks angekündigt. Nach Gesprächen mit Hunderten von Kunden haben wir zwei häufige Herausforderungen festgestellt, um über die Pilotphasen hinauszugehen. Erstens fehlt den Kunden das Vertrauen in die Produktionsleistung ihrer Modelle. Zweitens haben die Kunden keinen klaren Weg zur Iteration und Verbesserung. Zusammengenommen führen diese oft zu ins Stocken geratenen Projekten oder ineffizienten Prozessen, bei denen Teams verzweifelt nach Fachexperten suchen, um die Modellausgaben manuell zu bewerten.
Heute gehen wir diese Herausforderungen an, indem wir Databricks MLflow um neue Public Preview-Funktionen erweitern. Diese Verbesserungen helfen Teams, ihre GenAI-Anwendungen durch anpassbare, automatisierte Auswertungen und optimiertes Feedback von Business-Stakeholdern besser zu verstehen und zu verbessern.
Um diese Funktionen in Aktion zu sehen, schauen Sie sich unser Beispiel-Notebook an.
GenAI-Anwendungen und Agentensysteme gibt es in vielen Formen – von ihrer zugrunde liegenden Architektur mit Vektordatenbanken und Tools bis hin zu ihren Bereitstellungsmethoden, sei es Echtzeit oder Batch. Bei Databricks haben wir gelernt, dass erfolgreiche domänenspezifische Aufgaben erfordern, dass Agenten auch Unternehmensdaten effektiv nutzen. Diese Bandbreite erfordert einen ebenso flexiblen Bewertungsansatz.
Heute stellen wir Updates für Databricks MLflow vor, um es hochgradig anpassbar zu machen und Teams dabei zu helfen, die Leistung für jede domänenspezifische Anwendung für jeden GenAI-Anwendungstyp oder jedes Agentensystem zu messen.

Wir erweitern unseren Katalog von integrierten, forschungsgetunten LLM-Richtern, die erstklassige Genauigkeit bieten. Wir führen den Guidelines AI Judge (Public Preview) ein, der Entwicklern hilft, Checklisten oder Bewertungsmaßstäbe in einfacher Sprache für ihre Auswertungen zu verwenden. Manchmal auch als Bewertungsnotizen bezeichnet, sind Richtlinien ähnlich wie Lehrer Kriterien definieren (z. B. „Der Aufsatz muss fünf Absätze haben“, „Jeder Absatz muss einen Themensatz enthalten“, „Der letzte Absatz jedes Satzes muss alle im Absatz gemachten Punkte zusammenfassen“, …).
So funktioniert's: Geben Sie Richtlinien bei der Konfiguration der Agentenbewertung an, die für jede Anfrage automatisch bewertet werden.
Beispiele für Richtlinien:
Warum es wichtig ist: Richtlinien verbessern die Transparenz und das Vertrauen der Auswertung bei Business-Stakeholdern durch leicht verständliche, strukturierte Bewertungsmaßstäbe, was zu einer konsistenten und transparenten Bewertung der Antworten Ihrer App führt.

Sehen Sie sich unsere Dokumentation für weitere Informationen an, wie Richtlinien Auswertungen verbessern.
Benutzerdefinierte Metriken ermöglichen es Ihnen, benutzerdefinierte Bewertungskriterien für Ihre KI-Anwendung über die integrierten Metriken und LLM-Richter hinaus zu definieren. Dies gibt Ihnen die volle Kontrolle, um Eingaben, Ausgaben und Traces programmatisch zu bewerten, wie es Ihre Geschäftsanforderungen vorschreiben. Sie könnten beispielsweise eine benutzerdefinierte Metrik schreiben, um zu prüfen, ob die SQL-generierende Abfrage eines Agenten tatsächlich erfolgreich in einer Testdatenbank ausgeführt wird, oder eine Metrik, um anzupassen, wie der integrierte Groundness-Richter verwendet wird, um die Konsistenz zwischen einer Antwort und einem bereitgestellten Dokument zu messen.
So funktioniert's: Schreiben Sie eine Python-Funktion, dekorieren Sie sie mit @metric und übergeben Sie sie an mlflow.evaluate(extra_metrics=[..]). Die Funktion kann auf umfangreiche Informationen zu jedem Datensatz zugreifen, einschließlich der Anfrage, der Antwort, des vollständigen MLflow-Traces, verfügbarer und aufgerufener Tools, die aus dem Trace nachbearbeitet werden usw.
Warum es wichtig ist: Diese Flexibilität ermöglicht es Ihnen, geschäftsspezifische Regeln oder erweiterte Prüfungen zu definieren, die zu erstklassigen Metriken in der automatisierten Auswertung werden.
Informieren Sie sich in unserer Dokumentation über die Definition benutzerdefinierter Metriken.
Reale GenAI-Workflows sind nicht auf Chat-Anwendungen beschränkt. Sie haben möglicherweise einen Batch-Verarbeitungsagenten, der Dokumente entgegennimmt und eine JSON-Datei mit Schlüsselinformationen zurückgibt, oder Sie verwenden eine LLMI, um eine Vorlage auszufüllen. Die Agentenbewertung unterstützt jetzt die Bewertung beliebiger Ein-/Ausgabeschemata.
So funktioniert's: Übergeben Sie eine beliebige serialisierbare Dictionary (z. B. dict[str, Any]) als Eingabe an mlflow.evaluate().
Warum es wichtig ist: Sie können jetzt jede GenAI-Anwendung mit der Agentenbewertung auswerten.
Erfahren Sie mehr über beliebige Schemas in unserer Dokumentation.
Die automatische Auswertung allein reicht oft nicht aus, um qualitativ hochwertige GenAI-Apps zu liefern. GenAI-Entwickler, die oft nicht die Fachexperten für den Anwendungsfall sind, den sie erstellen, benötigen eine Möglichkeit, mit Geschäftsinteressenten zusammenzuarbeiten, um ihr GenAI-System zu verbessern.
Wir haben die Agent Evaluation Review App aktualisiert, um das Sammeln benutzerdefinierter Feedback von Fachexperten für die Erstellung eines Evaluationsdatensatzes oder das Sammeln von Feedback zu vereinfachen. Die Review App integriert sich in das Databricks MLFlow GenAI-Ökosystem und vereinfacht die Zusammenarbeit zwischen Entwicklern und Experten mit einer einfachen, aber vollständig anpassbaren Benutzeroberfläche.
Die Review App ermöglicht Ihnen jetzt Folgendes:
Beispiel: Ein Entwickler kann potenziell problematische Traces in einer produktiven GenAI-App entdecken und diese Traces zur Überprüfung durch seinen Fachexperten senden. Der Fachexperte würde einen Link erhalten und den Multi-Turn-Chat überprüfen, wobei er markiert, wo die Antwort des Assistenten irrelevant war, und erwartete Antworten bereitstellt, um einen Evaluationsdatensatz zu kuratieren.
Warum es wichtig ist: Die Zusammenarbeit mit Labels von Fachexperten ermöglicht es GenAI-App-Entwicklern, qualitativ hochwertigere Anwendungen für ihre Benutzer bereitzustellen, und gibt den Geschäftsinteressenten ein viel höheres Vertrauen, dass ihre bereitgestellte GenAI-Anwendung ihren Kunden einen Mehrwert bietet.
„Bei Bridgestone nutzen wir Daten, um unsere GenAI-Anwendungsfälle voranzutreiben, und Databricks MLflow war entscheidend dafür, dass unsere GenAI-Initiativen korrekt und sicher sind. Mit seiner Review App und den Tools für Evaluationsdatensätze konnten wir schneller iterieren, die Qualität verbessern und das Vertrauen des Unternehmens gewinnen.“ — Coy McNew, Lead AI Architect, Bridgestone

Lesen Sie unsere Dokumentation, um mehr darüber zu erfahren, wie Sie die aktualisierte Review App verwenden können.
Evaluationsdatensätze haben sich als das Äquivalent zu „Unit“- und „Integrationstests“ für GenAI herausgestellt und helfen Entwicklern, die Qualität und Leistung ihrer GenAI-Anwendungen vor der Veröffentlichung in der Produktion zu validieren.
Der Evaluation Dataset von Agent Evaluation, der als verwaltete Delta-Tabelle in Unity Catalog verfügbar ist, ermöglicht es Ihnen, den Lebenszyklus Ihrer Evaluationsdaten zu verwalten, sie mit anderen Interessengruppen zu teilen und den Zugriff zu steuern. Mit Evaluation Datasets können Sie Labels einfach aus der Review App synchronisieren, um sie als Teil Ihres Evaluationsworkflows zu verwenden.
So funktioniert's: Verwenden Sie unsere SDKs, um einen Evaluationsdatensatz zu erstellen, fügen Sie dann mit unseren SDKs Traces aus Ihren Produktionsprotokollen hinzu, fügen Sie Labels von Fachexperten aus der Review App hinzu oder fügen Sie synthetische Evaluationsdaten hinzu.
Warum es wichtig ist: Ein Evaluationsdatensatz ermöglicht es Ihnen, identifizierte Probleme in der Produktion iterativ zu beheben und sicherzustellen, dass es keine Regressionen gibt, wenn Sie neue Versionen ausliefern. Dies gibt den Geschäftsinteressenten die Gewissheit, dass Ihre App die wichtigsten Testfälle abdeckt.
„Die Databricks MLflow Review App hat die Erstellung und Verwaltung von Evaluationsdatensätzen erheblich erleichtert, sodass sich unsere Teams auf die Verbesserung der Agentenqualität konzentrieren können, anstatt Daten zu verwalten. Mit der integrierten Generierung synthetischer Daten können wir schnell testen und iterieren, ohne auf manuelle Labeling warten zu müssen – was unsere Time-to-Production-Launch um 50 % beschleunigt. Dies hat unseren Workflow optimiert und die Genauigkeit unserer KI-Systeme verbessert, insbesondere bei unseren KI-Agenten, die zur Unterstützung unseres Kundendienstzentrums entwickelt wurden.“ — Chris Nishnick, Director of Artificial Intelligence bei Lippert
Lassen Sie uns nun durchgehen, wie diese Funktionen einem Entwickler helfen können, die Qualität einer GenAI-App zu verbessern, die für Beta-Tester oder Endbenutzer in der Produktion veröffentlicht wurde.
> Um diesen Prozess selbst durchzuführen, können Sie diesen Blog als Notebook aus unserer Dokumentation importieren.
Das folgende Beispiel verwendet einen einfachen Tool-Calling-Agenten, der zur Beantwortung von Fragen zu Databricks bereitgestellt wurde. Dieser Agent verfügt über einige einfache Tools und Datenquellen. Wir werden uns nicht darauf konzentrieren, WIE dieser Agent erstellt wurde, aber für eine ausführliche Anleitung zur Erstellung dieses Agenten siehe unseren Workflow für GenAI-App-Entwickler, der Sie durch den End-to-End-Prozess der Entwicklung einer GenAI-App führt [AWS | Azure].
Zuerst fügen wir MLflow Tracing hinzu und konfigurieren es so, dass Traces an Databricks protokolliert werden. Wenn Ihre App mit dem Agent Framework bereitgestellt wurde, geschieht dies automatisch. Dieser Schritt ist also nur erforderlich, wenn Ihre App außerhalb von Databricks bereitgestellt wird. In unserem Fall, da wir LangGraph verwenden, können wir von der automatischen Protokollierungsfunktion von MLFlow profitieren:
MLFlow unterstützt die automatische Protokollierung der gängigsten GenAI-Bibliotheken, einschließlich LangChain, LangGraph, OpenAI und vielen mehr. Wenn Ihre GenAI-App keine der unterstützten GenAI-Bibliotheken verwendet, können Sie Manual Tracing verwenden:
Lassen Sie uns nun einige Produktionsprotokolle Ihres Agenten überprüfen. Wenn Ihr Agent mit dem Agent Framework bereitgestellt wurde, können Sie die Payload-Request-Protokollierungstabelle abfragen und einige Anfragen nach databricks_request_id: filtern:
Wir können den MLflow Trace für jedes Produktionsprotokoll untersuchen:

Nun führen wir eine Evaluierung mit einer Kombination aus den integrierten Richtern von Agent Evaluation (einschließlich des neuen Richtlinien-Richters) und benutzerdefinierten Metriken durch:
Der Kürze halber haben wir in diesem Blogbeitrag nur eine Teilmenge der oben genannten Metriken aufgenommen, aber die vollständige Definition finden Sie im Demo-Notebook
Jetzt können wir die Integration von Agent Evaluation mit MLflow nutzen, um diese Metriken gegen unseren Evaluationsdatensatz zu berechnen.
Wenn wir uns diese Ergebnisse ansehen, stellen wir einige Probleme fest:

Um die beiden Probleme zu beheben, können wir Folgendes versuchen:
Anschließend führen wir die Evaluierung erneut durch, um zu bestätigen, dass die Probleme behoben wurden:

Nachdem wir das Problem behoben haben, nutzen wir die Review App, um die korrigierten Fragen den Stakeholdern zur Verfügung zu stellen und zu überprüfen, ob sie von hoher Qualität sind. Wir werden die Review App anpassen, um sowohl Feedback als auch zusätzliche Richtlinien zu sammeln, die unsere Fachexperten während der Überprüfung identifizieren.
Wir können die Review App mit jeder Person teilen, die über die SSO unseres Unternehmens verfügt, auch wenn diese keinen Zugriff auf den Databricks-Arbeitsbereich hat.

Schließlich können wir die gesammelten Labels zurück in unseren Evaluationsdatensatz synchronisieren und die Evaluierung mit den zusätzlichen Richtlinien und dem Feedback des Fachexperten erneut durchführen.
Sobald dies bestätigt ist, können wir unsere App erneut bereitstellen!
Wir arbeiten bereits an unserer nächsten Generation von Funktionen.
Erstens wird Lakehouse Monitoring for GenAI durch eine Integration mit Agent Evaluation die Produktionsüberwachung der Leistung von GenAI-Apps (Latenz, Anfragevolumen, Fehler) und Qualitätsmetriken (Genauigkeit, Korrektheit, Compliance) unterstützen. Mit Lakehouse Monitoring for GenAI können Entwickler:
Zweitens wird MLflow Tracing [Open Source | Databricks], das auf dem Industriestandard Open Telemetry für Observability aufbaut, das Sammeln von Observability- (Trace-) Daten von jeder GenAI-App unterstützen, auch wenn sie außerhalb von Databricks bereitgestellt wird. Mit wenigen Zeilen Copy-Paste-Code können Sie jede GenAI-App oder jeden Agenten instrumentieren und Trace-Daten in Ihrem Lakehouse landen lassen.
Wenn Sie diese Funktionen ausprobieren möchten, wenden Sie sich bitte an Ihr Account-Team.

Ob Sie KI-Agenten in der Produktion überwachen, die Evaluierung anpassen oder die Zusammenarbeit mit Business-Stakeholdern optimieren, diese Tools können Ihnen helfen, zuverlässigere und qualitativ hochwertigere GenAI-Anwendungen zu erstellen.
Um loszulegen, lesen Sie die Dokumentation:
Sehen Sie sich das Demo-Video an.
Und lesen Sie den Kompakten Leitfaden für KI-Agenten, um zu erfahren, wie Sie Ihren GenAI ROI maximieren können.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
