2. Juli 2024

Ankündigung des Agent Bricks Custom Agents und der Agentenbewertung

Erstellen Sie Agenten- und Retrieval-Augmented-Generation-Apps in Produktionsqualität

von Eric Peter, Akhil Gupta, Mani Parkhe, Alkis Polyzotis, Chenen Liang, Maheswaran Venkatachalam, Michael Carbin und Niall Turbitt

Databricks kündigte die öffentliche Vorschau des Agent Bricks Custom Agents und Agent Evaluation zusammen mit unserem Generative AI Cookbook auf dem Data + AI Summit 2024 an.

Diese Tools sollen Entwicklern helfen, qualitativ hochwertige Agentic- und Retrieval Augmented Generation (RAG)-Anwendungen innerhalb der Databricks Data Intelligence Platform zu erstellen und bereitzustellen.

Herausforderungen beim Erstellen qualitativ hochwertiger Generative AI-Anwendungen

Während die Erstellung eines Proof of Concept für Ihre GenAI-Anwendung relativ einfach ist, hat sich die Bereitstellung einer qualitativ hochwertigen Anwendung für eine große Anzahl von Kunden als schwierig erwiesen. Um den Qualitätsstandard für kundenorientierte Anwendungen zu erfüllen, müssen KI-Ausgaben genau, sicher und gesteuert sein. Um dieses Qualitätsniveau zu erreichen, haben Entwickler Schwierigkeiten,

die richtigen Metriken auswählen, um die Qualität der Anwendung zu bewerten
effizient menschliches Feedback sammeln, um die Qualität der Anwendung zu messen
die Grundursache von Qualitätsproblemen identifizieren
schnell iterieren, um die Qualität der Anwendung vor der Bereitstellung in der Produktion zu verbessern

Vorstellung von Agent Bricks Custom Agents und Agent Evaluation

In Zusammenarbeit mit dem Databricks AI Research Team entwickelt, bieten Agent Framework und Agent Evaluation mehrere Funktionen, die speziell zur Bewältigung dieser Herausforderungen entwickelt wurden:

Schnelles Einholen von menschlichem Feedback - Agent Evaluation ermöglicht es Ihnen zu definieren, wie qualitativ hochwertige Antworten für Ihre GenAI-Anwendung aussehen, indem Sie Fachexperten aus Ihrem Unternehmen einladen, Ihre Anwendung zu überprüfen und Feedback zur Qualität der Antworten zu geben, auch wenn sie keine Databricks-Benutzer sind.

Einfache Bewertung Ihrer GenAI-Anwendung - Agent Evaluation bietet eine Reihe von Metriken, die in Zusammenarbeit mit Databricks AI Research entwickelt wurden, um die Qualität Ihrer Anwendung zu messen. Es protokolliert automatisch Antworten und Feedback von Menschen in einer Auswertungstabelle und ermöglicht Ihnen, die Ergebnisse schnell zu analysieren, um potenzielle Qualitätsprobleme zu identifizieren. Unsere systemseitig bereitgestellten KI-Bewerter bewerten diese Antworten anhand gängiger Kriterien wie Genauigkeit, Halluzination, Schädlichkeit und Hilfreichkeit und identifizieren die Grundursachen für Qualitätsprobleme. Diese Bewerter werden anhand des Feedbacks Ihrer Fachexperten kalibriert, können aber auch die Qualität ohne menschliche Labels messen.

Sie können dann verschiedene Konfigurationen Ihrer Anwendung mit Agent Framework experimentieren und optimieren, um diese Qualitätsprobleme zu beheben und die Auswirkungen jeder Änderung auf die Qualität Ihrer App zu messen. Sobald Sie Ihren Qualitätsschwellenwert erreicht haben, können Sie die Kosten- und Latenzmetriken von Agent Evaluation verwenden, um den optimalen Kompromiss zwischen Qualität/Kosten/Latenz zu ermitteln.

Schneller End-to-End-Entwicklungsworkflow - Agent Framework ist in MLflow integriert und ermöglicht es Entwicklern, die Standard-MLflow-APIs wie log_model und mlflow.evaluate zu verwenden, um eine GenAI-Anwendung zu protokollieren und ihre Qualität zu bewerten. Sobald die Qualität zufriedenstellend ist, können Entwickler MLflow verwenden, um diese Anwendungen in der Produktion bereitzustellen und Feedback von Benutzern zu erhalten, um die Qualität weiter zu verbessern. Agent Framework und Agent Evaluation integrieren sich in MLflow und die Data Intelligence Platform, um einen vollständig ausgereiften Weg zum Erstellen und Bereitstellen von GenAI-Anwendungen zu bieten.

App Lifecycle Management - Agent Framework bietet ein vereinfachtes SDK zur Verwaltung des Lebenszyklus von agentischen Anwendungen, von der Verwaltung von Berechtigungen bis zur Bereitstellung mit Databricks Model Serving.

Um Ihnen den Einstieg in die Erstellung qualitativ hochwertiger Anwendungen mit Agent Framework und Agent Evaluation zu erleichtern, ist der Generative AI Cookbook ein umfassender Leitfaden, der jeden Schritt von der POC bis zur Produktion demonstriert und die wichtigsten Konfigurationsoptionen & Ansätze erklärt, die die Anwendungsqualität verbessern können.

Erstellen eines qualitativ hochwertigen RAG-Agenten

Um diese neuen Funktionen zu verstehen, gehen wir ein Beispiel für die Erstellung einer qualitativ hochwertigen agentischen Anwendung mit Agent Framework und die Verbesserung ihrer Qualität mit Agent Evaluation durch. Den vollständigen Code für dieses Beispiel und weitere fortgeschrittene Beispiele finden Sie im Generative AI Cookbook hier.

In diesem Beispiel erstellen und stellen wir eine einfache RAG-Anwendung bereit, die relevante Chunks aus einem vordefinierten Vektorindex abruft und diese als Antwort auf eine Abfrage zusammenfasst. Sie können die RAG-Anwendung mit jedem Framework erstellen, einschließlich nativem Python-Code, aber in diesem Beispiel verwenden wir Langchain.

Das erste, was wir tun wollen, ist, MLflow zu nutzen, um Traces zu aktivieren und die Anwendung bereitzustellen. Dies kann durch Hinzufügen von drei einfachen Zeilen im Anwendungscode (oben) geschehen, die es dem Agent Framework ermöglichen, Traces und eine einfache Möglichkeit zur Beobachtung und Fehlerbehebung der Anwendung bereitzustellen.

tracing

MLflow Tracing bietet Beobachtbarkeit Ihrer Anwendung während der Entwicklung und Produktion

Der nächste Schritt ist die Registrierung der GenAI-Anwendung in Unity Catalog und ihre Bereitstellung als Proof of Concept, um Feedback von Stakeholdern über die Review-Anwendung von Agent Evaluation zu erhalten.

Sie können den Browser-Link mit Stakeholdern teilen und sofort Feedback erhalten! Das Feedback wird als Delta-Tabellen in Ihrem Unity Catalog gespeichert und kann zum Erstellen eines Auswertungsdatensatzes verwendet werden.

review-app

Verwenden Sie die Review-Anwendung, um Feedback von Stakeholdern zu Ihrem POC zu sammeln

Corning ist ein Unternehmen für Materialwissenschaften – unsere Glas- und Keramiktechnologien werden in vielen industriellen und wissenschaftlichen Anwendungen eingesetzt, daher ist das Verstehen und Handeln auf Basis unserer Daten unerlässlich. Wir haben einen KI-Forschungsassistenten mit dem Databricks Agent Bricks Custom Agents entwickelt, um Hunderttausende von Dokumenten, einschließlich Daten des US-Patentamts, zu indizieren. Dass unser LLM-gestützter Assistent mit hoher Genauigkeit auf Fragen antwortet, war für uns äußerst wichtig – so konnten unsere Forscher die Aufgaben, an denen sie arbeiteten, finden und weiterführen. Zur Implementierung haben wir das Databricks Agent Bricks Custom Agents verwendet, um eine Hi Hello Generative AI-Lösung zu erstellen, die mit den Daten des US-Patentamts angereichert ist. Durch die Nutzung der Databricks Data Intelligence Platform haben wir die Abrufgeschwindigkeit, die Antwortqualität und die Genauigkeit erheblich verbessert. —Denis Kamotsky, Principal Software Engineer, Corning

Sobald Sie Feedback zur Erstellung Ihres Evaluationsdatensatzes erhalten, können Sie Agent Evaluation und die integrierten KI-Richter verwenden, um jede Antwort anhand einer Reihe von Qualitätskriterien mit vordefinierten Metriken zu überprüfen:

Antwortkorrektheit – ist die Antwort der App korrekt?
Groundness – basiert die Antwort der App auf den abgerufenen Daten oder halluziniert die App?
Abruf-Relevanz – sind die abgerufenen Daten für die Frage des Benutzers relevant?
Antwort-Relevanz – ist die Antwort der App themenbezogen zur Frage des Benutzers?
Sicherheit – enthält die Antwort der App schädliche Inhalte?

Die aggregierten Metriken und die Auswertung jeder Frage im Evaluationsdatensatz werden in MLflow protokolliert. Jede LLM-gestützte Bewertung wird durch eine schriftliche Begründung gestützt, warum. Die Ergebnisse dieser Auswertung können verwendet werden, um die Grundursachen von Qualitätsproblemen zu identifizieren. Weitere Informationen finden Sie in den Cookbook-Abschnitten Evaluate the POC's quality und Identify the root cause of quality issues für eine detaillierte Anleitung.

aggregate metrics

Zeigen Sie die aggregierten Metriken von Agent Evaluation innerhalb von MLflow an

Als führender globaler Hersteller nutzt Lippert Daten und KI, um hochentwickelte Produkte, maßgeschneiderte Lösungen und die bestmöglichen Erlebnisse zu entwickeln. Agent Bricks Custom Agents war für uns ein Game-Changer, da es uns ermöglichte, die Ergebnisse unserer GenAI-Anwendungen zu bewerten und die Genauigkeit unserer Ausgaben nachzuweisen, während wir die vollständige Kontrolle über unsere Datenquellen behielten. Dank der Databricks Data Intelligence Platform bin ich zuversichtlich, in die Produktion zu gehen. —Kenan Colson, VP Data & AI, Lippert

Sie können auch jeden einzelnen Datensatz in Ihrem Evaluationsdatensatz untersuchen, um besser zu verstehen, was passiert, oder MLflow Trace verwenden, um potenzielle Qualitätsprobleme zu identifizieren.

individual record

Untersuchen Sie jeden einzelnen Datensatz in Ihrem Evaluationsdatensatz, um zu verstehen, was passiert

Sobald Sie die Qualität iterativ verbessert und für gut befunden haben, können Sie die Anwendung mit minimalem Aufwand in Ihrem Produktions-Workspace bereitstellen, da die Anwendung bereits in Unity Catalog registriert ist.

Agent Bricks Custom Agents hat es uns ermöglicht, schnell mit augmentierten LLMs zu experimentieren, in dem Wissen, dass private Daten unter unserer Kontrolle bleiben. Die nahtlose Integration mit MLflow und Model Serving stellt sicher, dass unser ML Engineering Team mit minimaler Komplexität von POC zu Produktion skalieren kann. —Ben Halsall, Analytics Director, Burberry

Diese Funktionen sind eng mit Unity Catalog für Governance, MLflow für Lineage und Metadatenmanagement sowie LLM Guardrails für Sicherheit integriert.

Ford Direct steht an der Spitze der digitalen Transformation der Automobilindustrie. Wir sind die Daten-Hubs für Ford- und Lincoln-Händler und mussten einen einheitlichen Chatbot erstellen, um unseren Händlern bei der Bewertung ihrer Leistung, ihres Inventars, ihrer Trends und ihrer Kundenbindungsmetriken zu helfen. Databricks Agent Bricks Custom Agents ermöglichte es uns, unsere proprietären Daten und Dokumentationen in unsere Generative AI-Lösung zu integrieren, die RAG verwendet. Die Integration von Databricks mit Databricks Delta Tables und Unity Catalog machte es nahtlos, unsere Vektorindizes in Echtzeit zu aktualisieren, sobald unsere Quelldaten aktualisiert werden, ohne unser bereitgestelltes Modell anfassen zu müssen. —Tom Thomas, VP of Analytics, FordDirect

Preise

Agent Evaluation – Preis pro Judge Request
Databricks Model Serving – Agents bereitstellen; Preis basierend auf den Databricks Model Serving-Preisen

Weitere Details finden Sie auf unserer Preis-Website.

Nächste Schritte

Agent Framework und Agent Evaluation sind die besten Möglichkeiten, produktionsreife Agentic- und Retrieval Augmented Generation-Anwendungen zu erstellen. Wir freuen uns darauf, dass mehr Kunden es ausprobieren und uns Feedback geben. Um loszulegen, sehen Sie sich die folgenden Ressourcen an:

Agent Framework Dokumentationsseite (AWS | Azure)
Agent Framework und Agent Evaluation Demo-Notebook
Generative AI Cookbook
Wiederholungen von Breakout-Sessions vom Data and AI Summit
- Eintauchen in die Erstellung von produktionsreifen Gen AI-Anwendungen
- Methoden zur Bewertung der Qualität Ihrer GenAI-Anwendung
GenAI Ankündigungen vom Data and AI Summit

Damit Sie diese Funktionen in Ihre Anwendung integrieren können, bietet das Generative AI Cookbook Beispielcode, der demonstriert, wie Sie einem Evaluations-gesteuerten Entwicklungs-Workflow mit Agent Framework und Agent Evaluation folgen können, um Ihre App von POC zu Produktion zu bringen. Darüber hinaus beschreibt das Cookbook die relevantesten Konfigurationsoptionen und Ansätze, die die Anwendungsqualität verbessern können.

Probieren Sie Agent Framework & Agent Evaluation noch heute aus, indem Sie unser Demo-Notebook ausführen oder dem Cookbook folgen, um eine App mit Ihren Daten zu erstellen.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen