12 juin 2024

Databricks : Créer et déployer des systèmes d'agents IA de qualité production

Annonce de nouveaux produits pour simplifier le développement d'agents et de RAG, le réglage fin des modèles, l'évaluation de l'IA, la gouvernance des outils, et plus encore

par Patrick Wendell et Naveen Rao

Au cours de la dernière année, nous avons constaté une explosion de modèles fondamentaux commerciaux et open-source démontrant de solides capacités de raisonnement sur des tâches de connaissances générales. Bien que les modèles généraux constituent un élément essentiel, les applications d'IA en production utilisent souvent des systèmes d'IA composites, qui exploitent plusieurs composants tels que des modèles affinés, la récupération d'informations, l'utilisation d'outils et des agents de raisonnement. Ces systèmes d'agents IA augmentent les modèles fondamentaux pour offrir une bien meilleure qualité et aider les clients à déployer en toute confiance ces applications GenAI en production.

Aujourd'hui, lors du Data and AI Summit, nous avons annoncé plusieurs nouvelles fonctionnalités qui font de Databricks la meilleure plateforme pour construire des systèmes d'agents IA de qualité production. Ces fonctionnalités sont basées sur notre expérience de travail avec des milliers d'entreprises pour mettre en production des applications basées sur l'IA. Les annonces d'aujourd'hui incluent la prise en charge du réglage fin des modèles fondamentaux, un catalogue d'entreprise pour les outils d'IA, un nouveau SDK pour construire, déployer et évaluer des agents IA, et une passerelle IA unifiée pour gouverner les services IA déployés.

Avec cette annonce, Databricks a entièrement intégré et considérablement élargi les capacités de création de modèles initialement incluses dans notre acquisition de MosaicML il y a un an.

Databricks

Construction et déploiement de systèmes d'IA composites

L'évaluation des modèles d'IA monolithiques en systèmes composites est un domaine de recherche actif, tant académique qu'industriel. Des résultats récents ont montré que « les résultats d'IA de pointe sont de plus en plus obtenus par des systèmes composites avec plusieurs composants, et pas seulement par des modèles monolithiques ». Ces conclusions sont renforcées par ce que nous observons chez notre clientèle. Prenons par exemple la société de recherche financière FactSet : lorsqu'elle a déployé un LLM commercial pour son cas d'utilisation Text-to-Financial-Formula, elle n'a pu obtenir que 55 % de précision dans la formule générée. Cependant, la modularisation de son modèle en un système composite lui a permis de spécialiser chaque tâche et d'atteindre 85 % de précision. Databricks prend en charge la construction de systèmes d'IA grâce aux produits suivants :

Réglage fin avec Databricks Model Training : Que vous affiniez un modèle sur un petit ensemble de données ou que vous pré-entraîniez un modèle à partir de zéro (comme DBRX) avec des trillions de jetons sur plus de 3 000 GPU, nous fournissons une API gérée et facile à utiliser pour l'entraînement de modèles, en abstraiant l'infrastructure sous-jacente. Nous constatons que nos clients obtiennent des succès en affinant des modèles open-source plus petits pour les composants système afin de réduire les coûts et la latence, tout en égalant les performances de GPT-4 sur les tâches d'entreprise avec des données propriétaires. Model Training permet aux clients de posséder entièrement leurs modèles et leurs données, leur permettant d'itérer sur la qualité.

Model Training

Les utilisateurs n'ont qu'à sélectionner une tâche et un modèle de base, et à fournir des données d'entraînement (sous forme de table Delta ou de fichier .jsonl) pour obtenir un modèle entièrement affiné qu'ils possèdent pour leur tâche spécialisée

Shutterstock ImageAI, propulsé par Databricks : Notre partenaire Shutterstock a annoncé aujourd'hui un nouveau modèle texte-vers-image entraîné exclusivement sur le référentiel d'images de classe mondiale de Shutterstock en utilisant Databricks Model Training. Il génère des images personnalisées, de haute fidélité et fiables, adaptées aux besoins spécifiques de l'entreprise.
Databricks AI Search, désormais avec prise en charge des clés gérées par le client et de la recherche hybride : Nous avons récemment rendu AI Search généralement disponible. De plus, AI Search prend désormais en charge le modèle d'intégration GTE-large qui offre de bonnes performances de récupération et prend en charge une longueur de contexte de 8K. AI Search prend également désormais en charge les clés gérées par le client pour offrir plus de contrôle sur les données et prend en charge la recherche hybride pour améliorer la qualité de la récupération.
Agent Bricks Custom Agents pour un développement rapide : Les applications RAG sont les applications GenAI les plus populaires que nous voyons sur notre plateforme, et nous sommes ravis d'annoncer aujourd'hui l'aperçu public de notre Agent Framework. Cela rend très facile la construction d'un système d'IA augmenté par vos données propriétaires – géré et contrôlé en toute sécurité dans Unity Catalog.
Prise en charge des agents par Databricks Model Serving ; disponibilité générale de l'API Foundation Model : En plus des modèles de service en temps réel, les clients peuvent désormais servir des agents et des RAG avec Model Serving. Nous rendons également les API de modèles fondamentaux généralement disponibles — les clients peuvent facilement utiliser des modèles fondamentaux, accessibles en paiement à l'usage et en débit provisionné pour les charges de travail de production.
Databricks Tool Catalog et Function-Calling : Aujourd'hui, nous avons annoncé le Databricks Tool Catalog, qui permet aux clients de créer un registre d'entreprise de fonctions courantes, internes ou externes, et de partager ces outils au sein de leur organisation pour une utilisation dans des applications d'IA. Les outils peuvent être des fonctions SQL, des fonctions Python, des points de terminaison de modèles, des fonctions distantes ou des récupérateurs. Nous avons également amélioré Model Serving pour prendre en charge nativement le function-calling, afin que les clients puissent utiliser des modèles open-source populaires comme Llama 3-70B comme moteur de raisonnement de leur agent.

Playground

Databricks Model Serving prend désormais en charge le function-calling et les utilisateurs peuvent rapidement expérimenter avec des fonctions et des modèles de base dans l'AI Playground

Évaluation des systèmes d'IA

Les modèles d'IA à usage général sont optimisés pour des benchmarks tels que MMLU, mais les systèmes d'IA déployés sont conçus pour résoudre des tâches utilisateur spécifiques dans le cadre d'un produit plus large (par exemple, répondre à un ticket de support, générer une requête ou suggérer une réponse). Pour s'assurer que ces systèmes fonctionnent bien, il est important de disposer d'un cadre d'évaluation robuste pour définir les métriques de qualité, collecter les signaux de qualité et itérer sur les performances. Aujourd'hui, nous sommes ravis d'annoncer plusieurs nouveaux outils d'évaluation :

Databricks MLflow pour les évaluations automatisées et humaines : Agent Evaluation vous permet de définir à quoi ressemblent les réponses de haute qualité pour votre système d'IA en fournissant des exemples « gold » d'interactions réussies. Une fois ce critère de qualité établi, vous pouvez explorer des permutations du système, affiner les modèles, modifier la récupération ou ajouter des outils, et comprendre comment les changements apportés au système modifient la qualité. Agent Evaluation vous permet également d'inviter des experts du domaine de votre organisation – même ceux qui n'ont pas de comptes Databricks – à examiner et à étiqueter la sortie de votre système d'IA pour effectuer des évaluations de qualité de production et constituer un ensemble de données d'évaluation étendu. Enfin, des juges LLM fournis par le système peuvent encore améliorer la collecte de données d'évaluation en notant les réponses sur des critères courants tels que l'exactitude ou l'utilité. Des traces de production détaillées peuvent aider à diagnostiquer les réponses de faible qualité.

Assessment

Databricks MLflow fournit des métriques assistées par IA pour aider les développeurs à former des intuitions rapides

Agent Evaluation

Databricks MLflow permet aux parties prenantes, même celles extérieures à la plateforme Databricks, d'évaluer les sorties des modèles et de fournir des notes pour aider à itérer sur la qualité

MLflow 2.14 : MLflow est un framework indépendant des modèles pour l'évaluation des LLM et des systèmes d'IA, permettant aux clients de mesurer et de suivre les paramètres à chaque étape. Avec MLflow 2.14, nous sommes ravis d'annoncer MLflow Tracing. Avec Tracing, les développeurs peuvent enregistrer chaque étape de l'inférence de modèle et d'agent pour déboguer les problèmes de performance et construire des ensembles de données d'évaluation pour tester les améliorations futures. Tracing est étroitement intégré à Databricks MLflow Experiments, Databricks Notebooks et Databricks Inference Tables, fournissant des informations sur les performances du développement à la production.

Corning est une entreprise de science des matériaux - nos technologies de verre et de céramique sont utilisées dans de nombreuses applications industrielles et scientifiques, il est donc essentiel de comprendre et d'agir sur nos données. Nous avons construit un assistant de recherche IA en utilisant Databricks Agent Bricks Custom Agents pour indexer des centaines de milliers de documents, y compris des données de l'office des brevets américain. Il était extrêmement important pour nous que notre assistant basé sur LLM réponde aux questions avec une grande précision - de cette façon, nos chercheurs pourraient trouver et faire progresser les tâches sur lesquelles ils travaillaient. Pour mettre cela en œuvre, nous avons utilisé Databricks Agent Bricks Custom Agents pour construire une solution Hi Hello Generative AI augmentée avec les données du bureau des brevets américain. En tirant parti de la plateforme Databricks Data Intelligence, nous avons considérablement amélioré la vitesse de récupération, la qualité des réponses et la précision. —Denis Kamotsky, ingénieur logiciel principal, Corning

Gouvernance de vos systèmes d'IA

Face à l'explosion des modèles fondamentaux de pointe, nous avons vu notre clientèle adopter rapidement de nouveaux modèles : DBRX a compté un millier de clients qui l'expérimentaient dans les deux semaines suivant son lancement, et nous voyons plusieurs centaines de clients expérimenter avec les modèles Llama3 récemment publiés. De nombreuses entreprises ont du mal à prendre en charge ces nouveaux modèles sur leur plateforme dans un délai raisonnable, et les changements dans les structures de prompts et les interfaces de requête les rendent difficiles à implémenter. De plus, lorsque les entreprises ouvrent l'accès aux modèles les plus récents et les plus performants, les gens s'enthousiasment et créent beaucoup de choses, ce qui peut rapidement dégénérer en un fouillis de problèmes de gouvernance. Les problèmes de gouvernance courants incluent l'atteinte des limites de débit qui impactent les applications de production, l'explosion des coûts lorsque les gens exécutent des modèles GenAI sur de grandes tables, et les préoccupations relatives aux fuites de données lorsque des PII sont envoyées à des fournisseurs de modèles tiers. Aujourd'hui, nous sommes ravis d'annoncer de nouvelles fonctionnalités dans AI Gateway pour la gouvernance et un catalogue de modèles organisé pour faciliter la découverte de modèles. Les fonctionnalités incluses sont :

Agent Bricks AI Gateway pour une gouvernance IA centralisée : Agent Bricks AI Gateway permet aux clients de disposer d'une interface unifiée pour gérer, gouverner, évaluer et changer facilement de modèles. Il s'intègre à Model Serving pour permettre la limitation de débit, la gestion des permissions et des identifiants pour les API de modèles (externes ou internes). Il fournit également une interface unique pour interroger les API de modèles fondamentaux afin que les clients puissent facilement échanger les modèles dans leurs systèmes et effectuer des expérimentations rapides pour trouver le meilleur modèle pour un cas d'utilisation. Gateway Usage Tracking suit qui appelle chaque API de modèle et Inference Tables capture les données envoyées en entrée et en sortie. Cela permet aux équipes de plateforme de comprendre comment modifier les limites de débit, mettre en place la refacturation, et auditer les fuites de données.
Databricks Guardrails : Ajoutez un filtrage de sécurité au niveau du point de terminaison ou de la requête pour empêcher les réponses non sécurisées, ou même ajoutez des filtres de détection de PII pour empêcher les fuites de données sensibles.
system.ai Catalog : Nous avons organisé une liste de modèles open source de pointe qui peuvent être gérés dans Unity Catalog. Déployez facilement ces modèles en utilisant les API de modèles fondamentaux de Model Serving ou affinez-les avec Model Training. Les clients peuvent également trouver tous les modèles pris en charge sur la page d'accueil de Databricks en allant dans Paramètres > Développeur > Page d'accueil personnalisée.

Databricks Model Serving accélère nos projets axés sur l'IA en facilitant l'accès sécurisé et la gestion de plusieurs modèles SaaS et ouverts, y compris ceux hébergés sur ou en dehors de Databricks. Son approche centralisée simplifie la gestion de la sécurité et des coûts, permettant à nos équipes de données de se concentrer davantage sur l'innovation et moins sur la surcharge administrative. —Greg Rokita, AVP, Technology chez Edmunds.com

Databricks permet aux équipes de construire et de collaborer sur des systèmes d'IA composés à partir d'une plateforme unique avec une gouvernance centralisée et une interface unifiée pour entraîner, suivre, évaluer, échanger et déployer. En tirant parti des données d'entreprise, les organisations peuvent passer de la connaissance générale à l'intelligence des données. Cette évolution permet aux organisations d'obtenir des informations plus pertinentes plus rapidement.

Nous sommes impatients de voir les innovations que nos clients construiront ensuite !

Explorer plus

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs

Construction et déploiement de systèmes d'IA composites

Évaluation des systèmes d'IA

Gouvernance de vos systèmes d'IA

Explorer plus

Recevez les derniers articles dans votre boîte mail

Sign up