Revenir au contenu principal
Produit

Présentation de Genie ZeroOps : mettez vos opérations de données et d'AI sur pilote automatique

Un agent d'arrière-plan AI qui surveille vos charges de travail en production, analyse les incidents et suggère des corrections que vous pouvez vérifier

par Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso et Ori Zohar

  • Les équipes de données passent la majeure partie de leur temps à la maintenance plutôt qu'à la construction, et cette charge de travail augmente à mesure que l'AI permet de déployer plus rapidement des pipelines et des modèles.
  • Les agents de codage aident à la construction, mais ils ne peuvent pas automatiser les opérations car ils ne font pas partie de la plateforme de données et ne peuvent pas accéder aux métriques, aux journaux et au lignage. De plus, ils ne peuvent pas accéder en toute sécurité aux données de production.
  • Genie ZeroOps est un agent d'arrière-plan intégré à Databricks qui surveille, analyse et propose de manière autonome des corrections pour les actifs de données et d'AI tels que les pipelines, les tâches, les tables, les modèles de ML et plus encore.

Le travail sur les données et l'AI a toujours connu des problèmes de maintenance. Les pipelines de données tombent constamment en panne, non seulement en raison de problèmes de code, mais aussi de problèmes de données tels que des modifications de schéma en amont ou des données arrivant en retard. Les modèles de ML dérivent, et les modèles en dégradation continuent de fournir des réponses erronées avec assurance bien avant qu'une erreur ne soit signalée. La responsabilité de maintenir les actifs de données et d'AI opérationnels en production incombe aux équipes de données, et elle ne fait que croître. L'essor des LLM et des outils agentiques a rendu la création de pipelines et le déploiement de modèles plus rapides que jamais. Par conséquent, les équipes de données déclarent passer la majeure partie de leur temps à éteindre des incendies plutôt qu'à construire.

Opérations agentiques avec Genie ZeroOps

Pour aider les équipes de données à faire face à cette charge opérationnelle, nous avons conçu Genie ZeroOps : un agent d'arrière-plan autonome qui surveille vos actifs de données et d'AI (tels que les pipelines, les tâches, les tables et les modèles de ML) et intervient avant ou au moment où les choses tournent mal. Comme il s'exécute au sein de Databricks, il dispose d'un accès sécurisé et facile à :

  • Observabilité complète : métriques, événements, journaux et historique d'exécution de la couche d'observabilité de la plateforme.
  • Lignage des données via Unity Catalog : le graphique de dépendance complet de chaque actif, lui permettant de remonter à la véritable cause racine des défaillances.
  • Environnements sandbox : Genie ZeroOps effectue des clones superficiels (shallow clones) des données de production (créant un clone de table à l'aide de métadonnées sans dupliquer les données sous-jacentes) dans un environnement isolé, applique des garde-fous d'autorisation et une isolation réseau, et valide une correction proposée par rapport à des données réelles sans toucher à la production.

Voici le processus qu'il exécute pour chaque défaillance :

  1. Détecter : surveillance continue avec accès à l'observabilité de la plateforme, y compris les défaillances silencieuses qui apparaissent dans les métriques de qualité des données avant de générer des erreurs.
  2. Évaluer : le lignage de Unity Catalog fournit à Genie ZeroOps le graphique de dépendance complet. Il peut attribuer une défaillance à un bug de code, à une modification de schéma trois tables en amont, ou à des données erronées introduites par un autre pipeline.
  3. Remédier : la génération de code agentique produit la correction, en utilisant votre flux de travail de développement (PR GitHub, tickets Jira) comme contexte.
  4. Vérifier : Genie ZeroOps exécute une sandbox sécurisée avec des clones sans copie (zero-copy clones) de vos données, des autorisations limitées et une isolation réseau. La correction proposée y est testée par rapport à des données réelles, jamais en production, et rien n'est appliqué sans votre approbation.
image2.png
L'interface utilisateur de la boîte de réception Genie ZeroOps affichant les incidents triés par gravité
image4.png
Genie ZeroOps vous montre une visualisation des actifs impactés et l'analyse de cause racine qu'il a effectuée à l'aide des données de lignage
image1.png
Les corrections suggérées sont fournies avec une indication de validation en sandbox

Pourquoi les agents de codage ne peuvent pas résoudre les opérations de données et d'AI

Pourquoi avez-vous besoin d'un agent spécialement conçu pour les opérations de données et d'AI ? Ne pouvez-vous pas utiliser le même agent de codage qui vous aide à développer des logiciels et obtenir les mêmes résultats ? La réponse est : « non, pas vraiment ».

Les agents de codage ont été conçus pour le génie logiciel, mais l'ingénierie des données et l'AI sont fondamentalement différentes :

  • Le contexte inclut les données, pas seulement le code. Les pannes de pipeline sont souvent causées par des modifications de schéma en amont, des données erronées se propageant dans une chaîne de dépendance ou une corruption silencieuse. Autant d'éléments que le code seul ne peut pas vous révéler.
  • Les défaillances peuvent être silencieuses et permanentes. Un bug de données peut rester discrètement dans une table de production pendant des semaines, corrompant les consommateurs en aval. Le temps que vous le découvriez, les conséquences commerciales se sont déjà matérialisées.
  • Les données de production sont sensibles et gouvernées. Contrairement au code, elles ne peuvent pas être librement copiées, partagées ou confiées à un outil externe.

Lorsque quelque chose tombe en panne, vous devez : la détecter, en évaluer la cause racine, y remédier avec une correction et vérifier qu'elle fonctionne sans effets secondaires.

Examinez chaque étape, et vous constaterez que les agents de codage sont généralement insuffisants. Pour la détection, ils peuvent manquer de contexte, comme la télémétrie, ou saturer face à un contexte extrêmement volumineux, comme les journaux Apache Spark™. Pour l'évaluation, à savoir trouver la cause racine et son impact, ils manquent souvent d'accès aux données de lignage. Ils ne disposent pas non plus d'un environnement spécialement conçu pour le travail sur les données et l'AI, ce qui rend le processus plus coûteux et plus long. Les agents de codage peuvent écrire du code pour la remédiation, mais ils manquent souvent de contexte pour le faire correctement et ne peuvent pas résoudre les problèmes liés aux données. Mais l'étape la plus difficile pour les agents de codage reste la vérification.

La vérification nécessite de tester les corrections de code par rapport à des données de production réelles dans un environnement isolé. Vous ne pouvez pas donner à un agent externe l'accès aux données de production, et même si vous le faisiez, l'exécution de code par rapport à celles-ci risquerait d'entraîner des effets secondaires aux conséquences dévastatrices.

Pour qu'un agent gère l'étape de vérification en toute sécurité, il doit faire partie intégrante de la plateforme de données elle-même. Genie ZeroOps fait partie de la plateforme Databricks, et c'est ce qui lui permet de réussir là où les agents de codage échouent.

Les charges de travail de machine learning, en particulier, mettent en évidence les avantages d'un agent spécialement conçu pour le travail opérationnel.

Genie ZeroOps pour le machine learning

Le ML en production introduit des défis supplémentaires pour l'ingénierie des données. Un modèle peut ne présenter aucune erreur de pipeline tout en produisant de mauvaises prédictions, ce qui signifie qu'il ne suffit pas de maintenir les pipelines opérationnels ; vous devez surveiller si les résultats du modèle sont toujours fiables.

Lorsque ce n'est pas le cas, Genie ZeroOps diagnostique la cause, construit un candidat corrigé et le valide avant qu'il ne touche le trafic réel. Pour une correction de pipeline, il effectue une validation par rapport à un clone superficiel d'une table. Pour un modèle, il entraîne un candidat sur des caractéristiques (features) corrigées et l'évalue par rapport à la même suite d'évaluation et aux mêmes critères que ceux appliqués au modèle de production, et non par rapport à un benchmark générique. Il ne présente le candidat que s'il est nettement meilleur, et vous permet de l'intégrer progressivement au trafic réel avant qu'il ne prenne le relais.

Ce qui rend ces corrections fiables, c'est le contexte. Genie ZeroOps pour le ML repose sur les mêmes bases que Genie Code, Genie Ontology et sur une intégration native avec la suite ML de Databricks (Feature Store, MLflow, service de modèles, notebooks). Il sait quelles caractéristiques (features) votre modèle utilise, comment votre équipe l'évalue et ce que signifie un « bon » résultat pour votre entreprise, de sorte qu'il raisonne de la même manière que vos ingénieurs ML seniors.

Vous gardez le contrôle

Vous configurez les actifs que Genie ZeroOps surveille et ce qu'il est autorisé à faire. Tout s'exécute sous la gouvernance de Unity Catalog, de sorte qu'il ne peut accéder qu'aux données autorisées par vos propres identifiants. Les incidents apparaissent dans une interface utilisateur de type boîte de réception, classés par gravité, chacun accompagné d'une analyse de cause racine et d'une proposition de correction. Rien n'est appliqué en production sans votre approbation.

La sandbox constitue la couche de confiance technique. Le clonage superficiel (shallow cloning) signifie que la correction est testée avec des données réelles, mais que la production n'est jamais touchée. Des autorisations limitées et l'isolation réseau garantissent que l'environnement sandbox ne peut pas dépasser ses limites. Ce qui a été testé est exactement ce qui est appliqué.

C'est là toute la valeur de Genie ZeroOps : il vous permet de faire évoluer vos opérations en toute sécurité. Il se charge du travail fastidieux pendant que vous gardez le contrôle.

Genie ZeroOps arrive bientôt

Genie ZeroOps entrera en version préliminaire privée dans les semaines à venir, en commençant par la prise en charge des tâches, des pipelines, des tables et des charges de travail de ML. Les applications et les bases de données Lakebase figurent sur la feuille de route.

Contactez votre équipe de compte Databricks pour demander un accès anticipé. En attendant, découvrez les autres membres de la famille Genie comme Genie One et Genie Code.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.