Ein AI-Hintergrund-Agent, der Ihre Produktions-Workloads überwacht, Probleme untersucht und Korrekturen vorschlägt, die Sie überprüfen können
von Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso und Ori Zohar
Die Arbeit mit Daten und AI hatte schon immer ein Wartungsproblem. Daten-Pipelines brechen ständig ab – nicht nur wegen Code-Problemen, sondern auch aufgrund von Datenproblemen wie Upstream-Schemaänderungen oder verspätet eintreffenden Daten. ML-Modelle driften ab, und an Qualität verlierende Modelle liefern weiterhin selbstbewusst falsche Antworten, lange bevor überhaupt ein Fehler gemeldet wird. Die Last, Daten- und AI-Assets in der Produktion am Laufen zu halten, liegt bei den Datenteams – und sie wächst ständig. Der Aufstieg von LLMs und agentischen Tools hat es schneller als je zuvor gemacht, Pipelines zu erstellen und Modelle bereitzustellen. Infolgedessen berichten Datenteams, dass sie die meiste Zeit mit der Brandbekämpfung verbringen, anstatt Neues zu entwickeln.
Um Datenteams von dieser operativen Last zu befreien, haben wir Genie ZeroOps entwickelt: einen autonomen Hintergrund-Agenten, der Ihre Daten- und AI-Assets (wie Pipelines, Jobs, Tabellen und ML-Modelle) überwacht und Maßnahmen ergreift, bevor oder wenn etwas schiefgeht. Da er innerhalb von Databricks läuft, hat er sicheren und einfachen Zugriff auf:
Hier ist der Prozess, den es bei jedem Fehler durchläuft:
Warum benötigen Sie einen speziell entwickelten Agenten für den Daten- und AI-Betrieb? Können Sie nicht denselben Coding-Agenten verwenden, der Ihnen beim Erstellen von Software hilft, und die gleichen Ergebnisse erzielen? Die Antwort lautet: „Nein, nicht wirklich.“
Coding-Agenten wurden für das Software-Engineering entwickelt, aber Data Engineering und AI sind grundlegend verschieden:
Wenn etwas kaputtgeht, müssen Sie: es erkennen, die Ursache bewerten, es mit einer Fehlerbehebung beheben und verifizieren, dass es ohne Nebenwirkungen funktioniert.
Wenn Sie jeden Schritt untersuchen, werden Sie feststellen, dass Coding-Agenten in der Regel an ihre Grenzen stoßen. Für die Erkennung fehlt ihnen oft der Kontext, wie z. B. Telemetriedaten, oder sie scheitern an extrem großen Kontexten wie Apache Spark™-Logs. Für die Bewertung – also das Finden der Ursache und ihrer Auswirkungen – fehlt ihnen oft der Zugriff auf Lineage-Daten. Sie verfügen auch nicht über eine speziell entwickelte Testumgebung für Daten- und AI-Arbeiten, was den Prozess kostspieliger und zeitaufwendiger macht. Coding-Agenten können zwar Code zur Behebung schreiben, aber ihnen fehlt oft der Kontext, um dies korrekt zu tun, und sie können keine datenbezogenen Probleme beheben. Der Schritt, der für Coding-Agenten jedoch die größte Herausforderung darstellt, ist die Verifizierung.
Die Verifizierung erfordert das Testen von Code-Fehlerbehebungen anhand realer Produktionsdaten in einer isolierten Umgebung. Sie können einem externen Agenten keinen Zugriff auf Produktionsdaten gewähren, und selbst wenn Sie es täten, birgt das Ausführen von Code darauf das Risiko von Nebenwirkungen, die verheerende Folgen haben können.
Damit ein Agent den Verifizierungsschritt sicher bewältigen kann, muss er Teil der Datenplattform selbst sein. Genie ZeroOps ist Teil der Databricks-Plattform, und genau das lässt ihn dort erfolgreich sein, wo Coding-Agenten scheitern.
Insbesondere Machine-Learning-Workloads verdeutlichen die Vorteile eines speziell für den Betrieb entwickelten Agenten.
Die produktive Nutzung von ML bringt zusätzliche Herausforderungen für das Data Engineering mit sich. Ein Modell kann fehlerfrei in der Pipeline laufen und dennoch schlechte Vorhersagen liefern. Das bedeutet, dass es nicht ausreicht, die Pipelines am Laufen zu halten – Sie müssen auch überwachen, ob die Ausgaben des Modells noch vertrauenswürdig sind.
Wenn dies nicht der Fall ist, diagnostiziert Genie ZeroOps die Ursache, erstellt einen korrigierten Kandidaten und validiert ihn, bevor er mit dem Live-Traffic in Berührung kommt. Bei einer Pipeline-Behebung erfolgt die Validierung anhand eines flachen Klons (Shallow Clone) einer Tabelle. Bei einem Modell trainiert es einen Kandidaten auf korrigierten Features und bewertet ihn anhand derselben Evaluierungssuite und -kriterien, denen das Produktionsmodell unterlag – nicht anhand eines generischen Benchmarks. Es schlägt den Kandidaten nur vor, wenn er messbar besser ist, und ermöglicht es Ihnen, ihn im Live-Traffic schrittweise einzuführen, bevor er die Kontrolle übernimmt.
Was diese Fehlerbehebungen vertrauenswürdig macht, ist der Kontext. Genie ZeroOps für ML basiert auf derselben Grundlage wie Genie Code, Genie Ontology und der nativen Integration in den Databricks-ML-Stack (Feature Store, MLflow, Model Serving, Notebooks). Es weiß, welche Features Ihr Modell verwendet, wie Ihr Team es bewertet und was „gut“ für Ihr Unternehmen bedeutet, sodass es genauso argumentiert wie Ihre erfahrenen ML-Engineers.
Sie konfigurieren, welche Assets Genie ZeroOps überwacht und wozu es autorisiert ist. Alles läuft unter der Governance von Unity Catalog, sodass es nur auf Daten zugreifen kann, die Ihre eigenen Anmeldedaten zulassen. Probleme werden in einer posteingangsähnlichen UI angezeigt, nach Schweregrad priorisiert, jeweils mit einer Ursachenanalyse und einer vorgeschlagenen Fehlerbehebung. Ohne Ihre Zustimmung wird nichts in der Produktion angewendet.
Die Sandbox ist die technische Vertrauensebene. Flaches Klonen (Shallow Cloning) bedeutet, dass die Fehlerbehebung mit echten Daten getestet wird, die Produktion jedoch unberührt bleibt. Eingeschränkte Berechtigungen und Netzwerkisolation sorgen dafür, dass die Sandbox-Umgebung nicht über ihre Grenzen hinausreichen kann. Was getestet wurde, ist genau das, was angewendet wird.
Das ist der Wert von Genie ZeroOps – es ermöglicht Ihnen, Ihren Betrieb sicher zu skalieren. Es übernimmt die schwere Arbeit, während Sie die Kontrolle behalten.
Genie ZeroOps geht in den kommenden Wochen in die Private Preview, beginnend mit der Unterstützung für Jobs, Pipelines, Tabellen und ML-Workloads. Apps und Lakebase-Datenbanken stehen auf der Roadmap.
Sprechen Sie mit Ihrem Databricks-Account-Team, um vorzeitigen Zugriff zu beantragen. Entdecken Sie in der Zwischenzeit andere Mitglieder der Genie-Familie wie Genie One und Genie Code.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.