2 juillet 2024

Annonce du framework d'agents Mosaic AI et de l'évaluation des agents

Créez des applications de génération augmentée par récupération et agentiques de qualité production

par Eric Peter, Akhil Gupta, Mani Parkhe, Alkis Polyzotis, Chenen Liang, Maheswaran Venkatachalam, Michael Carbin et Niall Turbitt

Databricks a annoncé la préversion publique de Agent Bricks Custom Agents et Agent Evaluation lors de notre Generative AI Cookbook au Data + AI Summit 2024.

Ces outils sont conçus pour aider les développeurs à créer et déployer des applications de haute qualité Agentic et Retrieval Augmented Generation (RAG) au sein de la plateforme Databricks Data Intelligence Platform.

Défis liés à la création d'applications d'IA générative de haute qualité

Bien que la création d'un preuve de concept pour votre application GenAI soit relativement simple, la fourniture d'une application de haute qualité s'est avérée difficile pour un grand nombre de clients. Pour répondre aux normes de qualité requises pour les applications destinées aux clients, les résultats de l'IA doivent être précis, sûrs et gouvernés. Pour atteindre ce niveau de qualité, les développeurs ont du mal à

Choisir les bonnes métriques pour évaluer la qualité de l'application
Collecter efficacement les retours humains pour mesurer la qualité de l'application
Identifier la cause première des problèmes de qualité
Itérer rapidement pour améliorer la qualité de l'application avant le déploiement en production

Présentation de Agent Bricks Custom Agents et Agent Evaluation

Développés en collaboration avec l'équipe de recherche IA de Databricks, Agent Framework et Agent Evaluation offrent plusieurs fonctionnalités spécialement conçues pour relever ces défis :

Obtenir rapidement des retours humains - Agent Evaluation vous permet de définir à quoi ressemblent des réponses de haute qualité pour votre application GenAI en vous permettant d'inviter des experts du domaine de votre organisation à examiner votre application et à fournir des commentaires sur la qualité des réponses, même s'ils ne sont pas des utilisateurs de Databricks.

Évaluation facile de votre application GenAI - Agent Evaluation fournit une suite de métriques, développées en collaboration avec la recherche IA de Databricks, pour mesurer la qualité de votre application. Il enregistre automatiquement les réponses et les commentaires des humains dans une table d'évaluation et vous permet d'analyser rapidement les résultats pour identifier les problèmes de qualité potentiels. Nos juges IA fournis par le système évaluent ces réponses selon des critères courants tels que la précision, les hallucinations, la nocivité et l'utilité, identifiant les causes profondes de tout problème de qualité. Ces juges sont calibrés à l'aide des commentaires de vos experts du domaine, mais peuvent également mesurer la qualité sans aucune étiquette humaine.

Vous pouvez ensuite expérimenter et ajuster diverses configurations de votre application à l'aide d'Agent Framework pour résoudre ces problèmes de qualité, en mesurant l'impact de chaque modification sur la qualité de votre application. Une fois que vous avez atteint votre seuil de qualité, vous pouvez utiliser les métriques de coût et de latence d'Agent Evaluation pour déterminer le compromis optimal entre qualité/coût/latence.

Flux de développement rapide et de bout en bout - Agent Framework est intégré à MLflow et permet aux développeurs d'utiliser les API MLflow standard comme log_model et mlflow.evaluate pour enregistrer une application GenAI et évaluer sa qualité. Une fois satisfaits de la qualité, les développeurs peuvent utiliser MLflow pour déployer ces applications en production et obtenir des retours des utilisateurs pour améliorer encore la qualité. Agent Framework et Agent Evaluation s'intègrent à MLflow et à la plateforme Data Intelligence pour fournir un chemin entièrement pavé pour construire et déployer des applications GenAI.

Gestion du cycle de vie des applications - Agent Framework fournit un SDK simplifié pour gérer le cycle de vie des applications agentiques, de la gestion des autorisations au déploiement avec Databricks Model Serving.

Pour vous aider à démarrer la création d'applications de haute qualité à l'aide d'Agent Framework et d'Agent Evaluation, Generative AI Cookbook est un guide pratique définitif qui démontre chaque étape pour faire passer votre application de POC à la production, tout en expliquant les options et approches de configuration les plus importantes qui peuvent améliorer la qualité de l'application.

Créer un agent RAG de haute qualité

Pour comprendre ces nouvelles capacités, examinons un exemple de création d'une application agentique de haute qualité à l'aide d'Agent Framework et d'amélioration de sa qualité à l'aide d'Agent Evaluation. Vous pouvez consulter le code complet de cet exemple et d'autres exemples plus avancés dans le Generative AI Cookbook ici.

Dans cet exemple, nous allons créer et déployer une application RAG simple qui récupère des morceaux pertinents d'un index vectoriel pré-créé et les résume en réponse à une requête. Vous pouvez créer l'application RAG à l'aide de n'importe quel framework, y compris du code Python natif, mais dans cet exemple, nous utilisons Langchain.

La première chose que nous voulons faire est d'exploiter MLflow pour activer le traçage et déployer l'application. Cela peut être fait en ajoutant trois lignes simples dans le code de l'application (ci-dessus) qui permettent à Agent Framework de fournir des traces et un moyen facile d'observer et de déboguer l'application.

tracing

MLflow Tracing offre une observabilité de votre application pendant le développement et la production

L'étape suivante consiste à enregistrer l'application GenAI dans Unity Catalog et à la déployer comme preuve de concept pour obtenir des retours des parties prenantes à l'aide de l'application d'examen d'Agent Evaluation.

Vous pouvez partager le lien du navigateur avec les parties prenantes et commencer à obtenir des retours immédiatement ! Les retours sont stockés sous forme de tables delta dans votre Unity Catalog et peuvent être utilisés pour construire un ensemble de données d'évaluation.

review-app

Utilisez l'application d'examen pour recueillir les commentaires des parties prenantes sur votre POC

Corning est une entreprise de science des matériaux - nos technologies de verre et de céramique sont utilisées dans de nombreuses applications industrielles et scientifiques, il est donc essentiel de comprendre et d'agir sur nos données. Nous avons construit un assistant de recherche IA en utilisant le framework d'agents Mosaic AI de Databricks pour indexer des centaines de milliers de documents, y compris des données du bureau des brevets américains. Il était extrêmement important pour nous que notre assistant basé sur LLM réponde aux questions avec une grande précision - de cette façon, nos chercheurs pouvaient trouver et faire avancer les tâches sur lesquelles ils travaillaient. Pour mettre cela en œuvre, nous avons utilisé le framework d'agents Mosaic AI de Databricks pour construire une solution d'IA générative Hi Hello augmentée avec les données du bureau des brevets des États-Unis. En tirant parti de la plateforme d'intelligence de données Databricks, nous avons considérablement amélioré la vitesse de récupération, la qualité des réponses et la précision. — Denis Kamotsky, ingénieur logiciel principal, Corning

Une fois que vous commencez à recevoir des commentaires pour créer votre ensemble de données d'évaluation, vous pouvez utiliser l'évaluation d'agents et les juges IA intégrés pour examiner chaque réponse par rapport à un ensemble de critères de qualité à l'aide de métriques prédéfinies :

Exactitude de la réponse - la réponse de l'application est-elle exacte ?
Fondement - la réponse de l'application est-elle fondée sur les données récupérées ou l'application hallucine-t-elle ?
Pertinence de la récupération - les données récupérées sont-elles pertinentes par rapport à la question de l'utilisateur ?
Pertinence de la réponse - la réponse de l'application est-elle pertinente par rapport à la question de l'utilisateur ?
Sécurité - la réponse de l'application contient-elle du contenu dangereux ?

Les métriques agrégées et l'évaluation de chaque question de l'ensemble d'évaluation sont enregistrées dans MLflow. Chaque jugement basé sur LLM est soutenu par une explication écrite expliquant pourquoi. Les résultats de cette évaluation peuvent être utilisés pour identifier les causes profondes des problèmes de qualité. Référez-vous aux sections du Cookbook Évaluer la qualité du POC et Identifier la cause profonde des problèmes de qualité pour une explication détaillée.

métriques agrégées

Visualisez les métriques agrégées de l'évaluation d'agents dans MLflow

En tant que fabricant mondial de premier plan, Lippert s'appuie sur les données et l'IA pour construire des produits hautement ingénierés, des solutions personnalisées et les meilleures expériences possibles. Le framework d'agents Mosaic AI a été un game-changer pour nous car il nous a permis d'évaluer les résultats de nos applications GenAI et de démontrer la précision de nos sorties tout en conservant un contrôle total sur nos sources de données. Grâce à la plateforme d'intelligence de données Databricks, je suis confiant dans le déploiement en production. — Kenan Colson, VP Data & AI, Lippert

Vous pouvez également inspecter chaque enregistrement individuel de votre ensemble de données d'évaluation pour mieux comprendre ce qui se passe ou utiliser le traçage MLflow pour identifier les problèmes de qualité potentiels.

enregistrement individuel

Inspectez chaque enregistrement individuel de votre ensemble d'évaluation pour comprendre ce qui se passe

Une fois que vous avez itéré sur la qualité et que vous êtes satisfait, vous pouvez déployer l'application dans votre espace de travail de production avec un minimum d'effort car l'application est déjà enregistrée dans Unity Catalog.

Le framework d'agents Mosaic AI nous a permis d'expérimenter rapidement avec des LLM augmentés, en sachant que toutes les données privées restent sous notre contrôle. L'intégration transparente avec MLflow et le service de modèles garantit que notre équipe d'ingénierie ML peut passer du POC à la production avec une complexité minimale. — Ben Halsall, directeur de l'analyse, Burberry

Ces capacités sont étroitement intégrées à Unity Catalog pour fournir la gouvernance, à MLflow pour fournir la lignée et la gestion des métadonnées, et aux LLM Guardrails pour assurer la sécurité.

Ford Direct est à la pointe de la transformation numérique de l'industrie automobile. Nous sommes le hub de données pour les concessionnaires Ford et Lincoln, et nous devions créer un chatbot unifié pour aider nos concessionnaires à évaluer leurs performances, leurs stocks, leurs tendances et leurs indicateurs d'engagement client. Le framework d'agents Mosaic AI de Databricks nous a permis d'intégrer nos données propriétaires et notre documentation dans notre solution d'IA générative qui utilise RAG. L'intégration de Mosaic AI avec les tables Delta de Databricks et Unity Catalog a rendu transparente la mise à jour de nos index vectoriels en temps réel à mesure que nos données sources sont mises à jour, sans avoir à toucher à notre modèle déployé. — Tom Thomas, VP de l'analyse, FordDirect

Tarification

Évaluation d'agents – facturée par demande de juge
Service de modèles Databricks – servir les agents ; facturé en fonction des tarifs du service de modèles Databricks

Pour plus de détails, consultez notre site de tarification.

Prochaines étapes

Le framework d'agents et l'évaluation d'agents sont les meilleurs moyens de construire des applications agentiques et de génération augmentée par récupération de qualité de production. Nous sommes impatients d'avoir plus de clients qui l'essaient et nous font part de leurs commentaires. Pour commencer, consultez les ressources suivantes :

Page de documentation du framework d'agents (AWS | Azure)
Notebook de démonstration du framework d'agents et de l'évaluation d'agents (demo notebook)
Cookbook d'IA générative
Replays des sessions de conférence du Data and AI Summit
- Plongez dans la construction d'applications Gen AI de qualité de production avec le framework d'agents
- Méthodes pour évaluer la qualité de votre application GenAI
Annonces GenAI du Data and AI Summit

Pour vous aider à intégrer ces capacités dans votre application, le Cookbook d'IA générative fournit des exemples de code qui démontrent comment suivre un flux de développement piloté par l'évaluation en utilisant le framework d'agents et l'évaluation d'agents pour faire passer votre application du POC à la production. De plus, le Cookbook décrit les options et approches de configuration les plus pertinentes qui peuvent améliorer la qualité de l'application.

Essayez dès aujourd'hui le framework d'agents et l'évaluation d'agents en exécutant notre notebook de démonstration ou en suivant le Cookbook pour construire une application avec vos données.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs