11. Juni 2025

Agent Bricks vorstellen: Auto-optimierte Agenten mit Ihren Daten

von Xiangrui Meng, Kasey Uhlenhuth, Hanlin Tang, Patrick Wendell und Matei Zaharia

Auto-optimierte Agenten: Erstellen Sie hochwertige, domänenspezifische Agenten, indem Sie die Aufgabe beschreiben – Agent Bricks kümmert sich um Evaluierung und Abstimmung.
Schnelle, kosteneffiziente Ergebnisse: Erzielen Sie höhere Qualität zu geringeren Kosten mit automatisierter Optimierung, die auf der Forschung von Databricks basiert.
In der Produktion bewährt: Von Flo Health, AstraZeneca und anderen genutzt, um sichere, genaue KI in Tagen statt Wochen zu skalieren.

Letztes Jahr kam das Versprechen der Datenintelligenz – der Aufbau von KI, die Ihre Daten verstehen kann – mit Databricks, einer umfassenden Plattform für die Erstellung, Bewertung, Überwachung und Sicherung von KI-Systemen. Seitdem haben Tausende unserer Kunden Datenintelligenz in die Produktion gebracht und domänenspezifische Agenten entwickelt, die auf ihren Unternehmensdaten basieren:

Mastercard hat digitale Assistenten zur Beschleunigung der Kundenaufnahme eingeführt
AT&T schützt Mobilfunkkunden vor Betrug und Schaden
Crisis Text Line hat KI-Agenten für psychische Gesundheit entwickelt, um die nächste Generation von Krisenberatern auszubilden
Block hat Goose, einen KI-Coding-Assistenten, der auf Unternehmenskontext basiert, eingeführt

Die Unreife der generativen Technologie bedeutete jedoch, dass der Weg zur Produktion immer noch herausfordernd war. Der Aufbau hochwertiger Agenten war oft zu komplex, aus mehreren Gründen:

Bewertung ist schwierig: Viele unternehmensinterne KI-Aufgaben sind sowohl für Menschen als auch für automatisierte LLM-Bewerter schwer zu bewerten. Akademische Benchmarks wie Matheprüfungen ließen sich nicht auf reale Anwendungsfälle übertragen. Die Erstellung nuancierter Bewertungen erforderte oft teure manuelle Kennzeichnungen. Infolgedessen gerieten vielversprechende Projekte in endlose Tuning-Zyklen, und die Stakeholder verloren aufgrund unklarer Fortschritte das Vertrauen.
Zu viele Stellschrauben: Agenten sind komplexe KI-Systeme mit vielen Komponenten, die jeweils ihre eigenen Stellschrauben haben. Vom Tuning von Prompts über Index-Chunking-Strategien bis hin zu Modellauswahl und Fine-Tuning-Parametern – jede Anpassung hat unbekannte Auswirkungen auf das gesamte System. Was schnelle iterative Verbesserungen sein sollten, wird zu einem teuren und mühsamen manuellen Ausprobieren, was die Zeit bis zur Produktion verlangsamt.
Kosten und Qualität: Selbst wenn Teams die oben genannten Probleme gelöst und einen hochwertigen Agenten entwickelt haben, sind sie oft überrascht festzustellen, dass der Agent zu teuer für die Skalierung in die Produktion ist. Teams geraten daher entweder in einen langen Prozess der Kostenoptimierung oder sind gezwungen, Kompromisse zwischen Kosten und Qualität einzugehen.

Agent Bricks: Auto-optimierende Agenten für Ihre Domänenaufgaben

Basierend auf unseren Erfahrungen bei der Einführung von KI in die Produktion mit Kunden haben wir das letzte Jahr damit verbracht, die Art und Weise, wie Agenten erstellt werden, neu zu überdenken. Heute stellen wir Agent Bricks vor, ein neues Produkt, das die Art und Weise, wie Unternehmen domänenspezifische Agenten entwickeln, verändert. Anstatt die überwältigende Komplexität der Agentenentwicklung zu verwalten, können sich Teams auf das Wesentliche konzentrieren: die Definition des Zwecks ihres Agenten und die strategische Anleitung zur Qualität durch natürliches Sprachfeedback. Agent Bricks erledigt den Rest, generiert automatisch Bewertungssuiten und optimiert die Qualität automatisch.

Agent Bricks

So funktioniert es:

Deklarieren Sie Ihre Aufgabe. Wählen Sie Ihre Aufgabe, definieren Sie in natürlicher Sprache eine High-Level-Beschreibung dessen, was der Agent erreichen soll, und verbinden Sie Ihre Datenquellen.
Automatische Bewertung: Agent Bricks erstellt dann automatisch Bewertung-Benchmarks, die spezifisch für Ihre Aufgabe sind, was die synthetische Generierung neuer Daten oder die Erstellung benutzerdefinierter LLM-Bewerter beinhalten kann.

Powered by MLflow 3, Agent Bricks automatically creates evaluation datasets and custom judges tailored to your task.
Automatische Optimierung: Agent Bricks durchsucht und kombiniert intelligent verschiedene Optimierungstechniken wie Prompt Engineering, Modell-Fine-Tuning, Reward Models oder Test-Adaptive Optimization (TAO), um hohe Qualität zu erzielen.
Kosten und Qualität: Agent Bricks stellt sicher, dass Agenten nicht nur hochwirksam, sondern auch kostengünstig sind. Benutzer können zwischen kostenoptimierten oder qualitätsoptimierten Modellen wählen. In vielen Fällen ist die Endlösung sowohl qualitativ hochwertiger als auch kostengünstiger im Vergleich zu anderen DIY-Ansätzen.

Mit Agent Bricks eliminieren Sie Rätselraten durch automatische Bewertungen. Wir optimieren die Stellschrauben automatisch, damit Sie der Leistung Ihres Agenten vertrauen und wissen, dass er mit maximaler Effizienz läuft. Das Endergebnis ist, dass Sie jetzt qualitativ hochwertige und kostengünstige Agenten in die Produktion bringen können. Agent Bricks ist für gängige Branchenanwendungsfälle optimiert, darunter die Extraktion strukturierter Informationen, zuverlässige Wissensunterstützung, benutzerdefinierte Texttransformationen und orchestrierte Multi-Agenten-Systeme.

Erstellen Sie hochwertige Agenten mit Agent Bricks

Agent Bricks ist in der Lage, Qualität einzigartig zu messen, aufzubauen und kontinuierlich zu verbessern. Beim Erstellen von Konversationsagenten über Dokumente beispielsweise haben wir die durchschnittliche Qualität über mehrere Q&A-Benchmarks gemessen. Im Vergleich zu anderen Produkten in diesem Bereich hat Agent Bricks deutlich hochwertigere Agenten erstellt (Abbildung 1). Nicht nur das, mit der Fähigkeit zum kontinuierlichen Lernen verbessert sich die Leistung im Laufe der Zeit weiter.

Agent Bricks built significantly higher quality agents — Figure 1

Für das Dokumentenverständnis erstellt Agent Bricks qualitativ hochwertigere und kostengünstigere Systeme im Vergleich zu Prompt-optimierten proprietären LLMs (Abbildung 2). Wir können ein System erzielen, das bei einem Dokumentenanalyse-Benchmark eine höhere Qualität aufweist, aber bis zu 10-mal kostengünstiger ist.

Agent Bricks builds higher quality and lower cost systems, compared to prompt optimized proprietary LLMs — Figure 2

Über diese Benchmarks hinaus können unsere Kunden auch mit Agent Bricks Qualitätsagenten erstellen:

„Agent Bricks hat es uns ermöglicht, unsere medizinische Genauigkeit gegenüber herkömmlichen kommerziellen LLMs zu verdoppeln und gleichzeitig die hohen internen Standards von Flo Health für klinische Genauigkeit, Sicherheit, Datenschutz und Sicherheit zu erfüllen.“ —Roman Bugaev, CTO, Flo Health

„Agent Bricks übertraf unsere ursprüngliche Open-Source-Implementierung sowohl bei den LLM-as-Judge- als auch bei den menschlichen Bewertungsgenauigkeitsmetriken deutlich.“ —Joel Wasson, Enterprise Data & Analytics, Hawaiian Electric

„[Agent Bricks] beschleunigte unsere KI-Fähigkeiten im gesamten Unternehmen, führte uns durch Qualitätsverbesserungen in der Feedbackschleife und identifizierte kostengünstigere Optionen, die genauso gut funktionieren. “ —Chris Nishnick, Director of AI, Lippert

Angetrieben von der neuesten Forschung im Bereich Agenten-Lernen

Agent Bricks kann diese Ergebnisse erzielen, da es von der Forschung unseres Databricks Research Teams angetrieben wird. Es gibt eine Vielzahl von Methoden zur Verbesserung der Agentenqualität, und neue Forschungsergebnisse werden in rasantem Tempo veröffentlicht. Unser Team kuratiert bestehende Forschung und entwickelt auch neue Innovationen, die dann von Agent Bricks während der automatischen Bewertungs- und Optimierungsphase verwendet werden. Obwohl wir über eine breite Palette von Methoden verfügen, freuen wir uns heute, eine unserer Innovationen hervorzuheben – Agent Learning from Human Feedback (ALHF).

Agent Learning from Human Feedback (ALHF)

Eine zentrale Herausforderung für die Qualität ist die Fähigkeit, das Verhalten des Agenten anhand von Feedback zu steuern. Dies ist besonders schwierig, da Feedback oft nur mit einem Daumen hoch oder Daumen runter gegeben wird und unklar ist, welche der vielen Komponenten und Stellschrauben innerhalb eines Agentensystems angepasst werden müssen, um das Feedback zu berücksichtigen. Der aktuelle Ansatz, alle Anweisungen in einen riesigen LLM-Prompt zu packen, ist fehleranfällig und lässt sich nicht auf ein komplexeres Agentensystem übertragen.

Mit ALHF haben wir dies mit zwei Ansätzen gelöst. Erstens können wir den reichen Kontext natürlicher Sprachführung empfangen (z. B. ignorieren Sie alle Daten vor Mai 1990). Zweitens übersetzen unsere Algorithmen basierend auf dieser natürlichen Sprachführung intelligent die Führung in technische Optimierungen – Verfeinerung des Retrieval-Algorithmus, Verbesserung von Prompts, Filterung der Vektordatenbank oder sogar Änderung des agentischen Musters.

Dieser Ansatz demokratisiert die Agentenentwicklung und ermöglicht es Domänenexperten, direkt zur Systemverbesserung beizutragen, ohne tiefgreifende technische Kenntnisse der KI-Infrastruktur zu benötigen.

„Die Fähigkeit, die Genauigkeit kontinuierlich zu bewerten und zu verbessern, ist für Experian eine Schlüsselkompetenz, insbesondere in einer stark regulierten Branche.“ —James Lin, Head of AI ML Innovation, Experian

Agent Learning from Human Feedback (ALHF)

Der Weg nach vorn: Von Labor zu Produktion in Tagen, nicht Monaten

Erste Kunden erleben bereits die Transformation, die Agent Bricks liefert – Genauigkeitsverbesserungen, die Leistungs-Benchmarks verdoppeln und Entwicklungszeiten von Wochen auf einen einzigen Tag verkürzen. Wichtiger noch, sie erreichen etwas, das noch vor wenigen Monaten unmöglich schien: nachhaltige, skalierbare KI-Systeme, die konsistenten Geschäftswert liefern.

Agent Bricks ist mehr als eine Weiterentwicklung von Tools – es ist eine grundlegende Verlagerung hin zu ausgereifter, produktionsreifer KI-Entwicklung. Da Agentensysteme für den Unternehmensbetrieb immer wichtiger werden, reichen die bisherigen „Vibe-Check“-Ansätze einfach nicht mehr aus. Organisationen benötigen einen robusten, systematischen Ansatz zum Aufbau und zur Optimierung intelligenter Agenten, die die Komplexität und die Anforderungen realer Geschäftsanwendungen bewältigen können.

Kunden, die Agent Bricks nutzen

Viele Databricks-Kunden haben bereits KI-Agenten mit Agent Bricks erstellt, und wir alle freuen uns darauf, zu sehen, was sie in Zukunft leisten können.

Sehen Sie sich das Video mit Experian und Flo Health an

„Mit Agent Bricks konnten unsere Teams mehr als 400.000 klinische Studienunterlagen durchsuchen und strukturierte Datenpunkte extrahieren, ohne eine einzige Zeile Code zu schreiben. In knapp 60 Minuten hatten wir einen funktionierenden Agenten, der komplexe unstrukturierte Daten für die Analyse nutzbar machen kann.“ – Joseph Roemer, Head of Data & AI, Commercial IT, AstraZeneca

„Agent Bricks ermöglichte es uns, einen kostengünstigen Agenten zu entwickeln, dem wir in der Produktion vertrauen konnten. Mit maßgeschneiderter Evaluierung entwickelten wir einen Agenten zur Informationsgewinnung, der unstrukturierte Gesetzestexte analysierte und 30 Tage manueller Versuch-und-Irrtum-Optimierung einsparte.“ – Ryan Jockers, Assistant Director of Reporting and Analytics am North Dakota University System

Probieren Sie Agent Bricks noch heute aus

Sind Sie bereit, die Lücke zwischen „Demo-Qualität“ und „Produktionsqualität“ zu schließen? Agent Bricks ist jetzt als Beta-Version verfügbar.

Erste Schritte:

Lesen Sie die Dokumentation
Sehen Sie sich die Keynote an
Sehen Sie sich Kundenberichte über die Vorteile der Nutzung von Agent Bricks an
Entdecken Sie die Produkttour, um zu erfahren, wie Databricks Agent Bricks Ihnen die Erstellung intelligenter KI-Agenten ohne Code ermöglicht, die sich automatisch mit Ihren eigenen Daten optimieren

Die Zukunft der Enterprise AI dreht sich nicht darum, Komplexität zu bewältigen – es geht darum, sich auf die Ergebnisse zu konzentrieren, die wichtig sind, während Agent Bricks den Rest erledigt.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen