11 juin 2025

MLflow 3.0 : Créez, évaluez et déployez l'IA générative en toute confiance

par Corey Zumar, Eric Peter, Alkis Polyzotis, Cathy Yin, Ian Ackerman, Nikhil Thorat, Ben Wilson, Maheswaran Venkatachalam, Matei Zaharia, Patrick Wendell et Akhil Gupta

MLflow 3.0 unifie le développement ML traditionnel, le deep learning et la GenAI sur une seule plateforme, éliminant le besoin d'outils spécialisés distincts
Les nouvelles capacités GenAI incluent le traçage à l'échelle de la production, une expérience d'évaluation de la qualité revue, des API et une interface utilisateur pour la collecte de feedback, ainsi qu'un suivi complet des versions pour les prompts et les applications
La plateforme permet un flux de travail complet de développement GenAI : débogage avec traçage, mesure de la qualité avec des juges LLM, amélioration avec le feedback d'experts, suivi des changements avec le versionnement et surveillance en production, le tout démontré par un exemple de chatbot e-commerce

MLflow est devenu la base des MLOps à grande échelle, avec plus de 30 millions de téléchargements mensuels et des contributions de plus de 850 développeurs dans le monde entier, alimentant les charges de travail ML et de deep learning pour des milliers d'entreprises. Aujourd'hui, nous sommes ravis d'annoncer MLflow 3.0, une évolution majeure qui apporte la même rigueur et la même fiabilité à l'IA générative tout en améliorant les capacités de base pour toutes les charges de travail d'IA. Ces nouvelles fonctionnalités puissantes sont disponibles dans MLflow open source et en tant que service entièrement géré sur Databricks, où elles offrent une expérience de développement GenAI de niveau entreprise.

Alors que l'IA générative introduit de nouveaux défis en matière d'observabilité, de mesure de la qualité et de gestion des invites et des configurations en évolution rapide, MLflow 3.0 y répond sans vous obliger à intégrer une plateforme spécialisée supplémentaire. MLflow 3.0 est une plateforme unifiée pour les applications d'IA générative, l'apprentissage automatique traditionnel et le deep learning. Que vous construisiez des agents GenAI, entraîniez des classificateurs ou affiniez des réseaux neuronaux, MLflow 3.0 fournit des flux de travail cohérents, une gouvernance standardisée et une fiabilité de niveau production qui s'adapte à vos besoins.

MLflow 3.0 en un coup d'œil :

Capacités complètes d'IA générative : Traçage, juges LLM, collecte de commentaires humains, versionnement d'applications et gestion des invites conçus pour offrir une qualité d'application élevée et une observabilité complète
Débogage rapide et analyse des causes profondes : Affichez les traces complètes avec les entrées, les sorties, la latence et le coût, liées aux invites, aux données et aux versions d'applications exactes qui les ont produites
Amélioration continue à partir des données de production : Transformez l'utilisation réelle et les commentaires en meilleurs ensembles de données d'évaluation et en applications affinées
Plateforme unifiée : MLflow prend en charge toutes les charges de travail d'IA générative, ML traditionnel et de deep learning sur une seule plateforme avec des outils cohérents pour la collaboration, la gestion du cycle de vie et la gouvernance
Échelle d'entreprise sur Databricks : Fiabilité et performances éprouvées qui alimentent les charges de travail d'IA de production pour des milliers d'organisations dans le monde

Le défi GenAI : Outils fragmentés, qualité insaisissable

L'IA générative a changé notre façon de penser la qualité. Contrairement au ML traditionnel avec des étiquettes de vérité terrain, les sorties GenAI sont libres, nuancées et variées. Une seule invite peut produire des dizaines de réponses différentes qui sont toutes également correctes. Comment mesurer si la réponse d'un chatbot est "bonne" ? Comment s'assurer que votre agent n'hallucine pas ? Comment déboguer des chaînes complexes d'invites, de récupérations et d'appels d'outils ?

Ces questions soulignent trois défis majeurs auxquels chaque organisation est confrontée lors de la construction d'applications GenAI :

Observabilité : Comprendre ce qui se passe dans votre application, surtout lorsque les choses tournent mal
Mesure de la qualité : Évaluer les sorties de texte libre à grande échelle sans goulots d'étranglement manuels
Amélioration continue : Créer des boucles de rétroaction qui transforment les informations de production en applications de meilleure qualité

Aujourd'hui, les organisations qui tentent de relever ces défis sont confrontées à un paysage fragmenté. Elles utilisent des outils distincts pour la gestion des données, l'observabilité et l'évaluation, et le déploiement. Cette approche crée des lacunes importantes : le débogage des problèmes nécessite de passer d'une plateforme à l'autre, l'évaluation se fait isolément des données de production réelles, et les commentaires des utilisateurs ne reviennent jamais pour améliorer l'application. Les équipes passent plus de temps à intégrer des outils qu'à améliorer leurs applications GenAI. Face à cette complexité, de nombreuses organisations abandonnent l'assurance qualité systématique. Elles ont recours à des tests manuels non structurés, expédient en production lorsque les choses semblent "suffisamment bonnes", et espèrent le meilleur.

Résoudre ces défis GenAI pour expédier des applications de haute qualité nécessite de nouvelles capacités, mais cela ne devrait pas nécessiter de jongler avec plusieurs plateformes. C'est pourquoi MLflow 3.0 étend notre base MLOps éprouvée pour prendre en charge de manière exhaustive GenAI sur une seule plateforme avec une expérience unifiée qui comprend :

Traçage complet pour plus de 20 bibliothèques GenAI, offrant une visibilité sur chaque requête en développement et en production, avec des traces liées au code, aux données et aux invites exacts qui les ont générées
Évaluation basée sur la recherche avec des juges LLM qui mesurent systématiquement la qualité GenAI et identifient les opportunités d'amélioration
Collecte de commentaires intégrée qui capture les informations des utilisateurs finaux et des experts de la production, quel que soit l'endroit où vous déployez, renvoyant directement à votre pile d'évaluation et d'observabilité pour une amélioration continue de la qualité

"Le traçage de MLflow 3.0 a été essentiel pour faire évoluer notre plateforme de sécurité alimentée par l'IA. Il nous donne une visibilité de bout en bout sur chaque décision de modèle, nous aidant à déboguer plus rapidement, à surveiller les performances et à garantir que nos défenses évoluent avec les menaces. Avec une intégration LangChain transparente et une autologging, nous obtenons tout cela sans surcharge d'ingénierie supplémentaire." — Sam Chou, ingénieur principal chez Barracuda

Pour démontrer comment MLflow 3.0 transforme la façon dont les organisations construisent, évaluent et déploient des applications d'IA générative de haute qualité, nous suivrons un exemple concret : la construction d'un chatbot de support client e-commerce. Nous verrons comment MLflow aborde chacun des trois défis GenAI fondamentaux en cours de route, vous permettant de passer rapidement du débogage au déploiement. Tout au long de ce parcours, nous exploiterons toute la puissance de Managed MLflow 3.0 sur Databricks, y compris les outils intégrés tels que l'application d'examen, les tâches de déploiement et la gouvernance Unity Catalog qui rendent le développement GenAI d'entreprise pratique à grande échelle.

Étape 1 : Identifier les problèmes de performance avec le traçage de niveau production

Votre chatbot e-commerce est en ligne en version bêta, mais les testeurs se plaignent de réponses lentes et de recommandations de produits inexactes. Sans visibilité sur les chaînes complexes d'invites, de récupérations et d'appels d'outils de votre application GenAI, vous déboguez à l'aveugle et expérimentez le défi de l'observabilité de première main.

Le traçage à l'échelle de production de MLflow 3.0 change la donne. En quelques lignes de code, vous pouvez capturer des traces détaillées de plus de 20 bibliothèques GenAI et de la logique métier personnalisée dans n'importe quel environnement, du développement à la production. Le package léger mlflow-tracing est optimisé pour les performances, vous permettant de journaliser rapidement autant de traces que nécessaire. Construit sur OpenTelemetry, il offre une observabilité à l'échelle de l'entreprise avec une portabilité maximale.

Après avoir instrumenté votre code avec MLflow Tracing, vous pouvez naviguer vers l'interface utilisateur MLflow pour voir chaque trace capturée automatiquement.

Après avoir instrumenté votre code avec MLflow Tracing, vous pouvez naviguer vers l'interface utilisateur MLflow pour voir chaque trace capturée automatiquement. La vue chronologique révèle pourquoi les réponses prennent plus de 15 secondes : votre application vérifie l'inventaire dans chaque entrepôt séparément (5 appels séquentiels) et récupère l'historique complet des commandes du client (plus de 500 commandes) alors qu'elle n'a besoin que des achats récents. Après avoir parallélisé les vérifications d'entrepôt et filtré les commandes récentes, le temps de réponse est réduit de plus de 50 %.

Étape 2 : Mesurer et améliorer la qualité avec les juges LLM

Les problèmes de latence étant résolus, nous nous tournons vers la qualité car les testeurs bêta se plaignent toujours de recommandations de produits non pertinentes. Avant de pouvoir améliorer la qualité, nous devons la mesurer systématiquement. Cela met en évidence le deuxième défi GenAI : comment mesurer la qualité lorsque les sorties GenAI sont libres et variées ?

MLflow 3.0 simplifie l'évaluation de la qualité. Créez un ensemble de données d'évaluation à partir de vos traces de production, puis exécutez des juges LLM basés sur la recherche alimentés par Databricks Databricks MLflow :

Ces juges évaluent différents aspects de la qualité pour une trace GenAI et fournissent des justifications détaillées pour les problèmes détectés.

Ces juges évaluent différents aspects de la qualité pour une trace GenAI et fournissent des justifications détaillées pour les problèmes détectés. L'examen des résultats de l'évaluation révèle le problème : bien que les scores de sécurité et de véracité soient bons, le score de pertinence de récupération de 65 % confirme que votre système de récupération récupère souvent les mauvaises informations, ce qui entraîne des réponses moins pertinentes.

Les juges LLM de MLflow sont des évaluateurs soigneusement réglés qui correspondent à l'expertise humaine. Vous pouvez créer des juges personnalisés à l'aide de directives adaptées aux exigences de votre entreprise. Créez et versionnez des ensembles de données d'évaluation à partir de conversations d'utilisateurs réelles, y compris des interactions réussies, des cas limites et des scénarios difficiles. MLflow gère l'évaluation à grande échelle, rendant l'évaluation systématique de la qualité pratique pour toute taille d'application.

Étape 3 : Utiliser les commentaires des experts pour améliorer la qualité

Le score de pertinence de récupération de 65 % indique votre cause profonde, mais pour le corriger, il faut comprendre ce que le système doit récupérer. Entrez dans l'application d'examen, une interface Web pour collecter des commentaires structurés d'experts sur les sorties d'IA, désormais intégrée à MLflow 3.0. C'est le début de votre parcours d'amélioration continue, transformant les informations de production en applications de meilleure qualité.

Vous créez des sessions d'étiquetage où les spécialistes des produits examinent les traces avec des récupérations médiocres. Lorsqu'un client demande des « écouteurs sans fil à moins de 200 $ avec prise en charge du codec aptX HD et une autonomie de plus de 30 heures », mais obtient des résultats d'écouteurs génériques, vos experts annotent exactement quels produits correspondent à TOUTES les exigences.

L'application d'examen permet aux experts du domaine d'examiner les réponses réelles et les documents sources via une interface Web intuitive, sans codage requis. Ils marquent quels produits ont été correctement récupérés et identifient les points de confusion (comme les écouteurs sans fil par rapport aux écouteurs filaires). Les annotations d'experts deviennent des données d'entraînement pour les améliorations futures et aident à aligner vos juges LLM sur les normes de qualité du monde réel.

L'application d'examen

Étape 4 : Suivre les modifications des invites, du code et de la configuration

Fort de vos annotations d'experts, vous reconstruisez votre système de récupération. Vous passez de la correspondance de mots-clés à la recherche sémantique qui comprend les spécifications techniques et mettez à jour les invites pour être plus prudent quant aux fonctionnalités de produits non confirmées. Mais comment suivre ces modifications et s'assurer qu'elles améliorent la qualité ?
Le suivi des versions de MLflow 3.0 capture votre application entière sous forme d'instantané, y compris le code de l'application, les invites, les paramètres LLM, la logique de récupération, les algorithmes de réordonnancement, et plus encore. Chaque version connecte toutes les traces et métriques générées lors de son utilisation. Lorsque des problèmes surviennent, vous pouvez retracer toute réponse problématique jusqu'à la version exacte qui l'a produite.

Suivi des versions

Les invites nécessitent une attention particulière : de petits changements de formulation peuvent modifier considérablement le comportement de votre application, rendant les tests difficiles et sujettes aux régressions. Heureusement, le tout nouveau registre d'invites de MLflow apporte une rigueur d'ingénierie spécifiquement à la gestion des invites. Versionnez les invites avec un suivi de type Git, testez différentes versions en production et revenez en arrière instantanément si nécessaire. L'interface utilisateur affiche des différences visuelles entre les versions, ce qui permet de voir facilement ce qui a changé et de comprendre l'impact sur les performances. Le registre d'invites MLflow s'intègre également aux optimiseurs DSPy pour générer automatiquement des invites améliorées à partir de vos données d'évaluation.

Avec un suivi complet des versions en place, mesurez si vos modifications ont réellement amélioré la qualité :

Les résultats confirment que vos corrections fonctionnent : la pertinence de la récupération passe de 65 % à 91 %, et la pertinence des réponses s'améliore à 93 %.

Étape 5 : Déployer et surveiller en production

Avec des améliorations vérifiées en main, il est temps de déployer. Les tâches de déploiement MLflow 3.0 garantissent que seules les applications validées satisfaisant vos exigences de qualité parviennent en production. L'enregistrement d'une nouvelle version de votre application déclenche automatiquement l'évaluation et présente les résultats pour approbation, et l'intégration complète de Unity Catalog fournit la gouvernance et les pistes d'audit. Ce même flux de travail d'enregistrement de modèle prend en charge les modèles ML traditionnels, les modèles d'apprentissage profond et les applications GenAI.

Après que les tâches de déploiement aient exécuté automatiquement des contrôles de qualité supplémentaires et que les parties prenantes aient examiné les résultats, votre chatbot amélioré passe tous les points de contrôle de qualité et est approuvé pour la production. Maintenant que vous allez servir des milliers de clients, vous instrumentez votre application pour collecter les commentaires des utilisateurs finaux :

tableaux de bord

Après le déploiement en production, vos tableaux de bord montrent que les taux de satisfaction sont élevés, car les clients obtiennent des recommandations de produits précises grâce à vos améliorations. La combinaison de la surveillance automatisée de la qualité de vos juges LLM et des commentaires des utilisateurs en temps réel vous donne la confiance que votre application apporte de la valeur. Si des problèmes surviennent, vous disposez des traces et des commentaires pour les comprendre et les résoudre rapidement.

Amélioration continue grâce aux données

Les données de production sont désormais votre feuille de route pour l'amélioration. Cela complète le cycle d'amélioration continue, des insights de production aux améliorations de développement et vice-versa. Exportez les traces avec un feedback négatif directement dans les jeux de données d'évaluation. Utilisez le suivi des versions pour comparer les déploiements et identifier ce qui fonctionne. Lorsque de nouveaux problèmes surviennent, vous disposez d'un processus systématique : collectez les traces problématiques, obtenez des annotations d'experts, mettez à jour votre application et déployez en toute confiance. Chaque problème devient un cas de test permanent, évitant les régressions et construisant une application plus solide au fil du temps.

MLflow 3.0 nous a donné la visibilité dont nous avions besoin pour déboguer et améliorer nos agents de questions-réponses en toute confiance. Ce qui prenait auparavant des heures de tâtonnement peut maintenant être diagnostiqué en quelques minutes, avec une traçabilité complète de chaque étape de récupération, de raisonnement et d'appel d'outil." — Daisuke Hashimoto, Tech Lead chez Woven by Toyota.

Une plateforme unifiée qui évolue avec vous

MLflow 3.0 rassemble toutes ces capacités d'IA au sein d'une seule plateforme. La même infrastructure de traçage qui capture chaque détail de vos applications GenAI offre également une visibilité sur le service des modèles ML traditionnels. Les mêmes flux de travail de déploiement couvrent à la fois les modèles d'apprentissage profond et les applications basées sur les LLM. La même intégration avec Unity Catalog fournit des mécanismes de gouvernance éprouvés pour tous les types d'actifs d'IA. Cette approche unifiée réduit la complexité tout en garantissant une gestion cohérente de toutes les initiatives d'IA.

Les améliorations de MLflow 3.0 profitent à toutes les charges de travail d'IA. La nouvelle abstraction LoggedModel pour le versionnement des applications GenAI simplifie également le suivi des points de contrôle d'apprentissage profond sur les itérations d'entraînement. Tout comme les versions GenAI sont liées à leurs traces et métriques, les modèles ML traditionnels et les points de contrôle d'apprentissage profond maintiennent désormais une lignée complète reliant les exécutions d'entraînement, les jeux de données et les métriques d'évaluation calculées sur différents environnements. Les tâches de déploiement garantissent des déploiements ML de haute qualité avec des portes de qualité automatisées pour chaque type de modèle. Ce ne sont là que quelques exemples des améliorations que MLflow 3.0 apporte aux modèles ML classiques et d'apprentissage profond grâce à sa gestion unifiée de tous les types d'actifs d'IA.

En tant que fondement des opérations ML et de l'observabilité de l'IA sur Databricks, MLflow 3.0 s'intègre de manière transparente à l'ensemble de la plateforme Mosaic AI. MLflow exploite Unity Catalog pour la gouvernance centralisée des modèles, des applications GenAI, des invites et des jeux de données. Vous pouvez même utiliser Databricks AI/BI pour créer des tableaux de bord à partir de vos données MLflow, transformant ainsi les métriques d'IA en insights commerciaux.

Démarrer avec MLflow 3.0

Que vous débutiez avec GenAI ou que vous exploitiez des centaines de modèles et d'agents à grande échelle, Managed MLflow 3.0 sur Databricks dispose des outils dont vous avez besoin. Rejoignez les milliers d'organisations qui utilisent déjà MLflow et découvrez pourquoi il est devenu la norme pour le développement d'IA.

Inscrivez-vous GRATUITEMENT à Managed MLflow sur Databricks pour commencer à utiliser MLflow 3.0 en quelques minutes. Vous bénéficierez d'une fiabilité de niveau entreprise, d'une sécurité et d'intégrations transparentes avec l'ensemble de la plateforme Databricks Lakehouse.

Pour les utilisateurs existants de Databricks Managed MLflow, la mise à niveau vers MLflow 3.0 vous donne un accès immédiat à de nouvelles capacités puissantes. Vos expériences, modèles et flux de travail actuels continuent de fonctionner de manière transparente pendant que vous bénéficiez d'un traçage de qualité production, de juges LLM, d'une surveillance en ligne et plus encore pour vos applications d'IA générative, sans migration nécessaire.

Prochaines étapes

Lisez la documentation pour des guides et tutoriels complets
Essayez le guide de démarrage rapide pour voir Managed MLflow 3.0 en action
Rejoignez la communauté pour vous connecter avec des milliers d'utilisateurs MLflow

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs