Un agent d'arrière-plan AI qui surveille vos charges de travail en production, analyse les incidents et suggère des corrections que vous pouvez vérifier
par Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso et Ori Zohar
Le travail sur les données et l'AI a toujours connu des problèmes de maintenance. Les pipelines de données tombent constamment en panne, non seulement en raison de problèmes de code, mais aussi de problèmes de données tels que des modifications de schéma en amont ou des données arrivant en retard. Les modèles de ML dérivent, et les modèles en dégradation continuent de fournir des réponses erronées avec assurance bien avant qu'une erreur ne soit signalée. La responsabilité de maintenir les actifs de données et d'AI opérationnels en production incombe aux équipes de données, et elle ne fait que croître. L'essor des LLM et des outils agentiques a rendu la création de pipelines et le déploiement de modèles plus rapides que jamais. Par conséquent, les équipes de données déclarent passer la majeure partie de leur temps à éteindre des incendies plutôt qu'à construire.
Pour aider les équipes de données à faire face à cette charge opérationnelle, nous avons conçu Genie ZeroOps : un agent d'arrière-plan autonome qui surveille vos actifs de données et d'AI (tels que les pipelines, les tâches, les tables et les modèles de ML) et intervient avant ou au moment où les choses tournent mal. Comme il s'exécute au sein de Databricks, il dispose d'un accès sécurisé et facile à :
Voici le processus qu'il exécute pour chaque défaillance :
Pourquoi avez-vous besoin d'un agent spécialement conçu pour les opérations de données et d'AI ? Ne pouvez-vous pas utiliser le même agent de codage qui vous aide à développer des logiciels et obtenir les mêmes résultats ? La réponse est : « non, pas vraiment ».
Les agents de codage ont été conçus pour le génie logiciel, mais l'ingénierie des données et l'AI sont fondamentalement différentes :
Lorsque quelque chose tombe en panne, vous devez : la détecter, en évaluer la cause racine, y remédier avec une correction et vérifier qu'elle fonctionne sans effets secondaires.
Examinez chaque étape, et vous constaterez que les agents de codage sont généralement insuffisants. Pour la détection, ils peuvent manquer de contexte, comme la télémétrie, ou saturer face à un contexte extrêmement volumineux, comme les journaux Apache Spark™. Pour l'évaluation, à savoir trouver la cause racine et son impact, ils manquent souvent d'accès aux données de lignage. Ils ne disposent pas non plus d'un environnement spécialement conçu pour le travail sur les données et l'AI, ce qui rend le processus plus coûteux et plus long. Les agents de codage peuvent écrire du code pour la remédiation, mais ils manquent souvent de contexte pour le faire correctement et ne peuvent pas résoudre les problèmes liés aux données. Mais l'étape la plus difficile pour les agents de codage reste la vérification.
La vérification nécessite de tester les corrections de code par rapport à des données de production réelles dans un environnement isolé. Vous ne pouvez pas donner à un agent externe l'accès aux données de production, et même si vous le faisiez, l'exécution de code par rapport à celles-ci risquerait d'entraîner des effets secondaires aux conséquences dévastatrices.
Pour qu'un agent gère l'étape de vérification en toute sécurité, il doit faire partie intégrante de la plateforme de données elle-même. Genie ZeroOps fait partie de la plateforme Databricks, et c'est ce qui lui permet de réussir là où les agents de codage échouent.
Les charges de travail de machine learning, en particulier, mettent en évidence les avantages d'un agent spécialement conçu pour le travail opérationnel.
Le ML en production introduit des défis supplémentaires pour l'ingénierie des données. Un modèle peut ne présenter aucune erreur de pipeline tout en produisant de mauvaises prédictions, ce qui signifie qu'il ne suffit pas de maintenir les pipelines opérationnels ; vous devez surveiller si les résultats du modèle sont toujours fiables.
Lorsque ce n'est pas le cas, Genie ZeroOps diagnostique la cause, construit un candidat corrigé et le valide avant qu'il ne touche le trafic réel. Pour une correction de pipeline, il effectue une validation par rapport à un clone superficiel d'une table. Pour un modèle, il entraîne un candidat sur des caractéristiques (features) corrigées et l'évalue par rapport à la même suite d'évaluation et aux mêmes critères que ceux appliqués au modèle de production, et non par rapport à un benchmark générique. Il ne présente le candidat que s'il est nettement meilleur, et vous permet de l'intégrer progressivement au trafic réel avant qu'il ne prenne le relais.
Ce qui rend ces corrections fiables, c'est le contexte. Genie ZeroOps pour le ML repose sur les mêmes bases que Genie Code, Genie Ontology et sur une intégration native avec la suite ML de Databricks (Feature Store, MLflow, service de modèles, notebooks). Il sait quelles caractéristiques (features) votre modèle utilise, comment votre équipe l'évalue et ce que signifie un « bon » résultat pour votre entreprise, de sorte qu'il raisonne de la même manière que vos ingénieurs ML seniors.
Vous configurez les actifs que Genie ZeroOps surveille et ce qu'il est autorisé à faire. Tout s'exécute sous la gouvernance de Unity Catalog, de sorte qu'il ne peut accéder qu'aux données autorisées par vos propres identifiants. Les incidents apparaissent dans une interface utilisateur de type boîte de réception, classés par gravité, chacun accompagné d'une analyse de cause racine et d'une proposition de correction. Rien n'est appliqué en production sans votre approbation.
La sandbox constitue la couche de confiance technique. Le clonage superficiel (shallow cloning) signifie que la correction est testée avec des données réelles, mais que la production n'est jamais touchée. Des autorisations limitées et l'isolation réseau garantissent que l'environnement sandbox ne peut pas dépasser ses limites. Ce qui a été testé est exactement ce qui est appliqué.
C'est là toute la valeur de Genie ZeroOps : il vous permet de faire évoluer vos opérations en toute sécurité. Il se charge du travail fastidieux pendant que vous gardez le contrôle.
Genie ZeroOps entrera en version préliminaire privée dans les semaines à venir, en commençant par la prise en charge des tâches, des pipelines, des tables et des charges de travail de ML. Les applications et les bases de données Lakebase figurent sur la feuille de route.
Contactez votre équipe de compte Databricks pour demander un accès anticipé. En attendant, découvrez les autres membres de la famille Genie comme Genie One et Genie Code.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.