Direkt zum Hauptinhalt
Produkt

Wir stellen vor: Genie ZeroOps: Bringen Sie Ihren Daten- und AI-Betrieb auf Autopilot

Ein AI-Hintergrund-Agent, der Ihre Produktions-Workloads überwacht, Probleme untersucht und Korrekturen vorschlägt, die Sie überprüfen können

von Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso und Ori Zohar

  • Datenteams verbringen die meiste Zeit mit der Wartung statt mit der Entwicklung, und diese Last wächst, da AI die Bereitstellung von Pipelines und Modellen beschleunigt.
  • Coding-Agenten helfen beim Erstellen, können aber den Betrieb nicht automatisieren, da sie nicht Teil der Datenplattform sind und nicht auf Metriken, Logs und Lineage zugreifen können. Vor allem können sie nicht sicher auf Produktionsdaten zugreifen.
  • Genie ZeroOps ist ein in Databricks integrierter Hintergrund-Agent, der Daten- und AI-Assets wie Pipelines, Jobs, Tabellen, ML-Modelle und mehr autonom überwacht, untersucht und Fehlerbehebungen vorschlägt.

Die Arbeit mit Daten und AI hatte schon immer ein Wartungsproblem. Daten-Pipelines brechen ständig ab – nicht nur wegen Code-Problemen, sondern auch aufgrund von Datenproblemen wie Upstream-Schemaänderungen oder verspätet eintreffenden Daten. ML-Modelle driften ab, und an Qualität verlierende Modelle liefern weiterhin selbstbewusst falsche Antworten, lange bevor überhaupt ein Fehler gemeldet wird. Die Last, Daten- und AI-Assets in der Produktion am Laufen zu halten, liegt bei den Datenteams – und sie wächst ständig. Der Aufstieg von LLMs und agentischen Tools hat es schneller als je zuvor gemacht, Pipelines zu erstellen und Modelle bereitzustellen. Infolgedessen berichten Datenteams, dass sie die meiste Zeit mit der Brandbekämpfung verbringen, anstatt Neues zu entwickeln.

Agentischer Betrieb mit Genie ZeroOps

Um Datenteams von dieser operativen Last zu befreien, haben wir Genie ZeroOps entwickelt: einen autonomen Hintergrund-Agenten, der Ihre Daten- und AI-Assets (wie Pipelines, Jobs, Tabellen und ML-Modelle) überwacht und Maßnahmen ergreift, bevor oder wenn etwas schiefgeht. Da er innerhalb von Databricks läuft, hat er sicheren und einfachen Zugriff auf:

  • Vollständige Observability: Metriken, Ereignisse, Logs und der Ausführungsverlauf aus der Observability-Ebene der Plattform.
  • Data Lineage durch Unity Catalog: der vollständige Abhängigkeitsgraph jedes Assets, sodass Fehler bis zu ihrer tatsächlichen Ursache zurückverfolgt werden können.
  • Sandbox-Umgebungen: Genie ZeroOps erstellt flache Klone (Shallow Clones) von Produktionsdaten (erstellt einen Tabellenklon mithilfe von Metadaten, ohne die zugrunde liegenden Daten zu duplizieren) in einer isolierten Umgebung, wendet Berechtigungs-Guardrails sowie Netzwerkisolation an und validiert eine vorgeschlagene Fehlerbehebung anhand realer Daten, ohne die Produktion zu beeinträchtigen.

Hier ist der Prozess, den es bei jedem Fehler durchläuft:

  1. Erkennen: Kontinuierliche Überwachung mit Zugriff auf die Plattform-Observability, einschließlich stiller Fehler, die in Datenqualitätsmetriken auftauchen, bevor sie überhaupt einen Fehler auslösen.
  2. Bewerten: Die Lineage von Unity Catalog liefert Genie ZeroOps den vollständigen Abhängigkeitsgraphen. Es kann einen Fehler auf einen Code-Bug, eine Schemaänderung drei Tabellen weiter oben (Upstream) oder fehlerhafte Daten zurückführen, die durch eine andere Pipeline eingebracht wurden.
  3. Beheben: Agentische Code-Generierung erstellt die Fehlerbehebung, wobei Ihr Entwicklungs-Workflow (GitHub-PRs, Jira-Tickets) als Kontext dient.
  4. Verifizieren: Genie ZeroOps führt eine sichere Sandbox mit Zero-Copy-Klonen Ihrer Daten, eingeschränkten Berechtigungen und Netzwerkisolation aus. Die vorgeschlagene Fehlerbehebung wird dort mit echten Daten ausgeführt, niemals in der Produktion, und nichts wird angewendet, bis Sie es genehmigen.
image2.png
Die Posteingangs-UI von Genie ZeroOps zeigt Vorfälle nach Schweregrad sortiert an
image4.png
Genie ZeroOps zeigt Ihnen eine Visualisierung der betroffenen Assets und die mithilfe von Lineage-Daten durchgeführte Ursachenanalyse
image1.png
Vorgeschlagene Fehlerbehebungen werden mit einem Hinweis auf die Sandbox-Validierung bereitgestellt

Warum Coding-Agenten den Daten- und AI-Betrieb nicht lösen können

Warum benötigen Sie einen speziell entwickelten Agenten für den Daten- und AI-Betrieb? Können Sie nicht denselben Coding-Agenten verwenden, der Ihnen beim Erstellen von Software hilft, und die gleichen Ergebnisse erzielen? Die Antwort lautet: „Nein, nicht wirklich.“

Coding-Agenten wurden für das Software-Engineering entwickelt, aber Data Engineering und AI sind grundlegend verschieden:

  • Der Kontext umfasst Daten, nicht nur Code. Pipeline-Fehler werden oft durch Schemaänderungen im Upstream, fehlerhafte Daten, die sich durch eine Abhängigkeitskette fortpflanzen, oder stille Datenkorruption verursacht. Über all das kann Ihnen Code allein keine Auskunft geben.
  • Fehler können still und dauerhaft sein. Ein Datenfehler kann wochenlang unbemerkt in einer Produktionstabelle liegen und nachgelagerte Consumer verunreinigen. Bis Sie ihn finden, haben sich die geschäftlichen Auswirkungen bereits bemerkbar gemacht.
  • Produktionsdaten sind sensibel und unterliegen der Governance. Im Gegensatz zu Code können sie nicht frei kopiert, geteilt oder an ein externes Tool übergeben werden.

Wenn etwas kaputtgeht, müssen Sie: es erkennen, die Ursache bewerten, es mit einer Fehlerbehebung beheben und verifizieren, dass es ohne Nebenwirkungen funktioniert.

Wenn Sie jeden Schritt untersuchen, werden Sie feststellen, dass Coding-Agenten in der Regel an ihre Grenzen stoßen. Für die Erkennung fehlt ihnen oft der Kontext, wie z. B. Telemetriedaten, oder sie scheitern an extrem großen Kontexten wie Apache Spark™-Logs. Für die Bewertung – also das Finden der Ursache und ihrer Auswirkungen – fehlt ihnen oft der Zugriff auf Lineage-Daten. Sie verfügen auch nicht über eine speziell entwickelte Testumgebung für Daten- und AI-Arbeiten, was den Prozess kostspieliger und zeitaufwendiger macht. Coding-Agenten können zwar Code zur Behebung schreiben, aber ihnen fehlt oft der Kontext, um dies korrekt zu tun, und sie können keine datenbezogenen Probleme beheben. Der Schritt, der für Coding-Agenten jedoch die größte Herausforderung darstellt, ist die Verifizierung.

Die Verifizierung erfordert das Testen von Code-Fehlerbehebungen anhand realer Produktionsdaten in einer isolierten Umgebung. Sie können einem externen Agenten keinen Zugriff auf Produktionsdaten gewähren, und selbst wenn Sie es täten, birgt das Ausführen von Code darauf das Risiko von Nebenwirkungen, die verheerende Folgen haben können.

Damit ein Agent den Verifizierungsschritt sicher bewältigen kann, muss er Teil der Datenplattform selbst sein. Genie ZeroOps ist Teil der Databricks-Plattform, und genau das lässt ihn dort erfolgreich sein, wo Coding-Agenten scheitern.

Insbesondere Machine-Learning-Workloads verdeutlichen die Vorteile eines speziell für den Betrieb entwickelten Agenten.

Genie ZeroOps für Machine Learning

Die produktive Nutzung von ML bringt zusätzliche Herausforderungen für das Data Engineering mit sich. Ein Modell kann fehlerfrei in der Pipeline laufen und dennoch schlechte Vorhersagen liefern. Das bedeutet, dass es nicht ausreicht, die Pipelines am Laufen zu halten – Sie müssen auch überwachen, ob die Ausgaben des Modells noch vertrauenswürdig sind.

Wenn dies nicht der Fall ist, diagnostiziert Genie ZeroOps die Ursache, erstellt einen korrigierten Kandidaten und validiert ihn, bevor er mit dem Live-Traffic in Berührung kommt. Bei einer Pipeline-Behebung erfolgt die Validierung anhand eines flachen Klons (Shallow Clone) einer Tabelle. Bei einem Modell trainiert es einen Kandidaten auf korrigierten Features und bewertet ihn anhand derselben Evaluierungssuite und -kriterien, denen das Produktionsmodell unterlag – nicht anhand eines generischen Benchmarks. Es schlägt den Kandidaten nur vor, wenn er messbar besser ist, und ermöglicht es Ihnen, ihn im Live-Traffic schrittweise einzuführen, bevor er die Kontrolle übernimmt.

Was diese Fehlerbehebungen vertrauenswürdig macht, ist der Kontext. Genie ZeroOps für ML basiert auf derselben Grundlage wie Genie Code, Genie Ontology und der nativen Integration in den Databricks-ML-Stack (Feature Store, MLflow, Model Serving, Notebooks). Es weiß, welche Features Ihr Modell verwendet, wie Ihr Team es bewertet und was „gut“ für Ihr Unternehmen bedeutet, sodass es genauso argumentiert wie Ihre erfahrenen ML-Engineers.

Sie behalten die Kontrolle

Sie konfigurieren, welche Assets Genie ZeroOps überwacht und wozu es autorisiert ist. Alles läuft unter der Governance von Unity Catalog, sodass es nur auf Daten zugreifen kann, die Ihre eigenen Anmeldedaten zulassen. Probleme werden in einer posteingangsähnlichen UI angezeigt, nach Schweregrad priorisiert, jeweils mit einer Ursachenanalyse und einer vorgeschlagenen Fehlerbehebung. Ohne Ihre Zustimmung wird nichts in der Produktion angewendet.

Die Sandbox ist die technische Vertrauensebene. Flaches Klonen (Shallow Cloning) bedeutet, dass die Fehlerbehebung mit echten Daten getestet wird, die Produktion jedoch unberührt bleibt. Eingeschränkte Berechtigungen und Netzwerkisolation sorgen dafür, dass die Sandbox-Umgebung nicht über ihre Grenzen hinausreichen kann. Was getestet wurde, ist genau das, was angewendet wird.

Das ist der Wert von Genie ZeroOps – es ermöglicht Ihnen, Ihren Betrieb sicher zu skalieren. Es übernimmt die schwere Arbeit, während Sie die Kontrolle behalten.

Genie ZeroOps ist bald verfügbar

Genie ZeroOps geht in den kommenden Wochen in die Private Preview, beginnend mit der Unterstützung für Jobs, Pipelines, Tabellen und ML-Workloads. Apps und Lakebase-Datenbanken stehen auf der Roadmap.

Sprechen Sie mit Ihrem Databricks-Account-Team, um vorzeitigen Zugriff zu beantragen. Entdecken Sie in der Zwischenzeit andere Mitglieder der Genie-Familie wie Genie One und Genie Code.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.