Databricks kündigte die öffentliche Vorschau des Mosaic AI Agent Framework und Agent Evaluation zusammen mit unserem Generative AI Cookbook auf dem Data + AI Summit 2024 an.
Diese Tools sollen Entwicklern helfen, qualitativ hochwertige Agentic- und Retrieval Augmented Generation (RAG)-Anwendungen innerhalb der Databricks Data Intelligence Platform zu erstellen und bereitzustellen.
Während die Erstellung eines Proof of Concept für Ihre GenAI-Anwendung relativ einfach ist, hat sich die Bereitstellung einer qualitativ hochwertigen Anwendung für eine große Anzahl von Kunden als schwierig erwiesen. Um den Qualitätsstandard für kundenorientierte Anwendungen zu erfüllen, müssen KI-Ausgaben genau, sicher und gesteuert sein. Um dieses Qualitätsniveau zu erreichen, haben Entwickler Schwierigkeiten,
In Zusammenarbeit mit dem Databricks AI Research Team entwickelt, bieten Agent Framework und Agent Evaluation mehrere Funktionen, die speziell zur Bewältigung dieser Herausforderungen entwickelt wurden:
Schnelles Einholen von menschlichem Feedback - Agent Evaluation ermöglicht es Ihnen zu definieren, wie qualitativ hochwertige Antworten für Ihre GenAI-Anwendung aussehen, indem Sie Fachexperten aus Ihrem Unternehmen einladen, Ihre Anwendung zu überprüfen und Feedback zur Qualität der Antworten zu geben, auch wenn sie keine Databricks-Benutzer sind.
Einfache Bewertung Ihrer GenAI-Anwendung - Agent Evaluation bietet eine Reihe von Metriken, die in Zusammenarbeit mit Databricks AI Research entwickelt wurden, um die Qualität Ihrer Anwendung zu messen. Es protokolliert automatisch Antworten und Feedback von Menschen in einer Auswertungstabelle und ermöglicht Ihnen, die Ergebnisse schnell zu analysieren, um potenzielle Qualitätsprobleme zu identifizieren. Unsere systemseitig bereitgestellten KI-Bewerter bewerten diese Antworten anhand gängiger Kriterien wie Genauigkeit, Halluzination, Schädlichkeit und Hilfreichkeit und identifizieren die Grundursachen für Qualitätsprobleme. Diese Bewerter werden anhand des Feedbacks Ihrer Fachexperten kalibriert, können aber auch die Qualität ohne menschliche Labels messen.
Sie können dann verschiedene Konfigurationen Ihrer Anwendung mit Agent Framework experimentieren und optimieren, um diese Qualitätsprobleme zu beheben und die Auswirkungen jeder Änderung auf die Qualität Ihrer App zu messen. Sobald Sie Ihren Qualitätsschwellenwert erreicht haben, können Sie die Kosten- und Latenzmetriken von Agent Evaluation verwenden, um den optimalen Kompromiss zwischen Qualität/Kosten/Latenz zu ermitteln.
Schneller End-to-End-Entwicklungsworkflow - Agent Framework ist in MLflow integriert und ermöglicht es Entwicklern, die Standard-MLflow-APIs wie log_model und mlflow.evaluate zu verwenden, um eine GenAI-Anwendung zu protokollieren und ihre Qualität zu bewerten. Sobald die Qualität zufriedenstellend ist, können Entwickler MLflow verwenden, um diese Anwendungen in der Produktion bereitzustellen und Feedback von Benutzern zu erhalten, um die Qualität weiter zu verbessern. Agent Framework und Agent Evaluation integrieren sich in MLflow und die Data Intelligence Platform, um einen vollständig ausgereiften Weg zum Erstellen und Bereitstellen von GenAI-Anwendungen zu bieten.
App Lifecycle Management - Agent Framework bietet ein vereinfachtes SDK zur Verwaltung des Lebenszyklus von agentischen Anwendungen, von der Verwaltung von Berechtigungen bis zur Bereitstellung mit Databricks Model Serving.
Um Ihnen den Einstieg in die Erstellung qualitativ hochwertiger Anwendungen mit Agent Framework und Agent Evaluation zu erleichtern, ist der Generative AI Cookbook ein umfassender Leitfaden, der jeden Schritt von der POC bis zur Produktion demonstriert und die wichtigsten Konfigurationsoptionen & Ansätze erklärt, die die Anwendungsqualität verbessern können.
Um diese neuen Funktionen zu verstehen, gehen wir ein Beispiel für die Erstellung einer qualitativ hochwertigen agentischen Anwendung mit Agent Framework und die Verbesserung ihrer Qualität mit Agent Evaluation durch. Den vollständigen Code für dieses Beispiel und weitere fortgeschrittene Beispiele finden Sie im Generative AI Cookbook hier.
In diesem Beispiel erstellen und stellen wir eine einfache RAG-Anwendung bereit, die relevante Chunks aus einem vordefinierten Vektorindex abruft und diese als Antwort auf eine Abfrage zusammenfasst. Sie können die RAG-Anwendung mit jedem Framework erstellen, einschließlich nativem Python-Code, aber in diesem Beispiel verwenden wir Langchain.
Das erste, was wir tun wollen, ist, MLflow zu nutzen, um Traces zu aktivieren und die Anwendung bereitzustellen. Dies kann durch Hinzufügen von drei einfachen Zeilen im Anwendungscode (oben) geschehen, die es dem Agent Framework ermöglichen, Traces und eine einfache Möglichkeit zur Beobachtung und Fehlerbehebung der Anwendung bereitzustellen.

MLflow Tracing bietet Beobachtbarkeit Ihrer Anwendung während der Entwicklung und Produktion
Der nächste Schritt ist die Registrierung der GenAI-Anwendung in Unity Catalog und ihre Bereitstellung als Proof of Concept, um Feedback von Stakeholdern über die Review-Anwendung von Agent Evaluation zu erhalten.
Sie können den Browser-Link mit Stakeholdern teilen und sofort Feedback erhalten! Das Feedback wird als Delta-Tabellen in Ihrem Unity Catalog gespeichert und kann zum Erstellen eines Auswertungsdatensatzes verwendet werden.

Verwenden Sie die Review-Anwendung, um Feedback von Stakeholdern zu Ihrem POC zu sammeln
Corning ist ein Unternehmen für Materialwissenschaften – unsere Glas- und Keramiktechnologien werden in vielen industriellen und wissenschaftlichen Anwendungen eingesetzt, daher ist das Verstehen und Handeln auf Basis unserer Daten unerlässlich. Wir haben einen KI-Forschungsassistenten mit dem Databricks Mosaic AI Agent Framework entwickelt, um Hunderttausende von Dokumenten, einschließlich Daten des US-Patentamts, zu indizieren. Dass unser LLM-gestützter Assistent mit hoher Genauigkeit auf Fragen antwortet, war für uns äußerst wichtig – so konnten unsere Forscher die Aufgaben, an denen sie arbeiteten, finden und weiterführen. Zur Implementierung haben wir das Databricks Mosaic AI Agent Framework verwendet, um eine Hi Hello Generative AI-Lösung zu erstellen, die mit den Daten des US-Patentamts angereichert ist. Durch die Nutzung der Databricks Data Intelligence Platform haben wir die Abrufgeschwindigkeit, die Antwortqualität und die Genauigkeit erheblich verbessert. — Denis Kamotsky, Principal Software Engineer, Corning
Sobald Sie Feedback zur Erstellung Ihres Evaluationsdatensatzes erhalten, können Sie Agent Evaluation und die integrierten KI-Richter verwenden, um jede Antwort anhand einer Reihe von Qualitätskriterien mit vordefinierten Metriken zu überprüfen:
Die aggregierten Metriken und die Auswertung jeder Frage im Evaluationsdatensatz werden in MLflow protokolliert. Jede LLM-gestützte Bewertung wird durch eine schriftliche Begründung gestützt, warum. Die Ergebnisse dieser Auswertung können verwendet werden, um die Grundursachen von Qualitätsproblemen zu identifizieren. Weitere Informationen finden Sie in den Cookbook-Abschnitten Evaluate the POC's quality und Identify the root cause of quality issues für eine detaillierte Anleitung.

Zeigen Sie die aggregierten Metriken von Agent Evaluation innerhalb von MLflow an
Als führender globaler Hersteller nutzt Lippert Daten und KI, um hochentwickelte Produkte, maßgeschneiderte Lösungen und die bestmöglichen Erlebnisse zu entwickeln. Mosaic AI Agent Framework war für uns ein Game-Changer, da es uns ermöglichte, die Ergebnisse unserer GenAI-Anwendungen zu bewerten und die Genauigkeit unserer Ausgaben nachzuweisen, während wir die vollständige Kontrolle über unsere Datenquellen behielten. Dank der Databricks Data Intelligence Platform bin ich zuversichtlich, in die Produktion zu gehen. — Kenan Colson, VP Data & AI, Lippert
Sie können auch jeden einzelnen Datensatz in Ihrem Evaluationsdatensatz untersuchen, um besser zu verstehen, was passiert, oder MLflow Trace verwenden, um potenzielle Qualitätsprobleme zu identifizieren.

Untersuchen Sie jeden einzelnen Datensatz in Ihrem Evaluationsdatensatz, um zu verstehen, was passiert
Sobald Sie die Qualität iterativ verbessert und für gut befunden haben, können Sie die Anwendung mit minimalem Aufwand in Ihrem Produktions-Workspace bereitstellen, da die Anwendung bereits in Unity Catalog registriert ist.
Mosaic AI Agent Framework hat es uns ermöglicht, schnell mit augmentierten LLMs zu experimentieren, in dem Wissen, dass private Daten unter unserer Kontrolle bleiben. Die nahtlose Integration mit MLflow und Model Serving stellt sicher, dass unser ML Engineering Team mit minimaler Komplexität von POC zu Produktion skalieren kann. — Ben Halsall, Analytics Director, Burberry
Diese Funktionen sind eng mit Unity Catalog für Governance, MLflow für Lineage und Metadatenmanagement sowie LLM Guardrails für Sicherheit integriert.
Ford Direct steht an der Spitze der digitalen Transformation der Automobilindustrie. Wir sind die Daten-Hubs für Ford- und Lincoln-Händler und mussten einen einheitlichen Chatbot erstellen, um unseren Händlern bei der Bewertung ihrer Leistung, ihres Inventars, ihrer Trends und ihrer Kundenbindungsmetriken zu helfen. Databricks Mosaic AI Agent Framework ermöglichte es uns, unsere proprietären Daten und Dokumentationen in unsere Generative AI-Lösung zu integrieren, die RAG verwendet. Die Integration von Mosaic AI mit Databricks Delta Tables und Unity Catalog machte es nahtlos, unsere Vektorindizes in Echtzeit zu aktualisieren, sobald unsere Quelldaten aktualisiert werden, ohne unser bereitgestelltes Modell anfassen zu müssen. — Tom Thomas, VP of Analytics, FordDirect
Weitere Details finden Sie auf unserer Preis-Website.
Agent Framework und Agent Evaluation sind die besten Möglichkeiten, produktionsreife Agentic- und Retrieval Augmented Generation-Anwendungen zu erstellen. Wir freuen uns darauf, dass mehr Kunden es ausprobieren und uns Feedback geben. Um loszulegen, sehen Sie sich die folgenden Ressourcen an:
Damit Sie diese Funktionen in Ihre Anwendung integrieren können, bietet das Generative AI Cookbook Beispielcode, der demonstriert, wie Sie einem Evaluations-gesteuerten Entwicklungs-Workflow mit Agent Framework und Agent Evaluation folgen können, um Ihre App von POC zu Produktion zu bringen. Darüber hinaus beschreibt das Cookbook die relevantesten Konfigurationsoptionen und Ansätze, die die Anwendungsqualität verbessern können.
Probieren Sie Agent Framework & Agent Evaluation noch heute aus, indem Sie unser Demo-Notebook ausführen oder dem Cookbook folgen, um eine App mit Ihren Daten zu erstellen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
