Découvrez, évaluez, installez, partagez et servez des modèles AI au sein de votre organisation ou sur plusieurs clouds, plateformes et régions
par Tianyi Huang, Darshana Sivakumar, Akram Chetibi, Harish Gaur, Tao Tao, Bemnet Merha et Prasad Kona
Delta Sharing a évolué pour devenir OpenSharing, le premier protocole ouvert et neutre vis-à-vis des fournisseurs pour partager en toute sécurité des actifs AI, y compris des compétences d'agent, des modèles AI et des données non structurées. Lisez l'annonce.
Nous sommes ravis d'annoncer la disponibilité générale du partage de modèles AI au sein de Databricks Delta Sharing et du Databricks Marketplace. Cette étape importante fait suite à l'annonce de la version préliminaire publique en janvier 2024. Depuis ce lancement, nous avons travaillé avec de nouveaux clients et fournisseurs de partage de modèles AI tels que Bitext, AI21 Labs et Ripple pour simplifier encore davantage le partage de modèles AI.
Vous pouvez facilement partager et déployer des modèles AI en toute sécurité à l'aide de Delta Sharing. Le partage peut s'effectuer au sein de votre organisation ou en externe, sur différents clouds, plateformes et régions. De plus, le Databricks Marketplace propose désormais plus de 75 modèles AI, y compris de nouveaux modèles AI spécifiques à certains secteurs de John Snow Labs, OLA Krutrim et Bitext, ainsi que des modèles de fondation comme Databricks DBRX, Llama 3, AI21 Labs, Mistral et bien d'autres. Dans ce blog, nous examinerons les besoins métier liés au partage de modèles AI et nous plongerons dans des cas d'usage basés sur le modèle de fondation Jamba 1.5 Mini d'AI21 et les modèles de Bitext.
Les modèles AI sont également désormais directement disponibles dans le Unity Catalog, ce qui simplifie le processus d'accès et de déploiement efficace des modèles pour les utilisateurs. Cette évolution simplifie non seulement l'expérience utilisateur, mais améliore également l'accessibilité des modèles AI, favorisant une intégration et un déploiement fluides sur diverses plateformes et régions.
Voici les 3 avantages du partage de modèles AI avec Databricks que nous avons constatés chez les premiers utilisateurs et nos partenaires de lancement :
Le partage de modèles AI est propulsé par Delta Sharing. Les fournisseurs peuvent partager des modèles AI avec leurs clients soit directement via Delta Sharing, soit en les répertoriant sur le Databricks Marketplace, qui utilise également Delta Sharing.
Delta Sharing facilite l'utilisation des modèles AI là où vous en avez besoin. Vous pouvez entraîner des modèles n'importe où, puis les utiliser n'importe où sans avoir à les déplacer manuellement. Les poids du modèle (c'est-à-dire les paramètres que le modèle AI a appris lors de l'entraînement) seront automatiquement importés dans le point de terminaison de déploiement (c'est-à-dire l'endroit où le modèle « vit »). Cela évite d'avoir à déplacer laborieusement les modèles après chaque entraînement ou réglage fin, garantissant ainsi une source unique de vérité et simplifiant le processus de déploiement. Par exemple, les clients peuvent entraîner des modèles dans le cloud et la région qui offrent l'infrastructure d'entraînement la moins chère, puis déployer le modèle dans une autre région plus proche des utilisateurs finaux afin de minimiser la latence d'inférence (c'est-à-dire de réduire le temps nécessaire à un modèle AI pour traiter les données et fournir des résultats).
Le Databricks Marketplace, propulsé par Delta Sharing, vous permet de trouver et d'utiliser facilement plus de 75 modèles AI. Vous pouvez configurer ces modèles comme s'ils se trouvaient sur votre système local, et Delta Sharing les met automatiquement à jour lors du déploiement ou des mises à niveau. Vous pouvez également personnaliser les modèles avec vos propres données pour des tâches telles que la gestion d'une base de connaissances. En tant que fournisseur, vous n'avez besoin que d'une seule copie de votre modèle pour le partager avec tous vos clients Databricks.
Depuis l'annonce de la version préliminaire publique du partage de modèles AI en janvier 2024, nous avons collaboré avec plusieurs clients et partenaires pour veiller à ce que le partage de modèles AI permette aux entreprises de réaliser d'importantes économies.
« Nous utilisons des modèles d'apprentissage par renforcement (RL) dans certains de nos produits. Par rapport aux modèles d'apprentissage supervisé, les modèles de RL ont des temps d'entraînement plus longs et comportent de nombreuses sources d'aléa dans le processus d'entraînement. Ces modèles de RL doivent être déployés dans 3 espaces de travail situés dans des régions AWS distinctes. Grâce au partage de modèles, nous pouvons disposer d'un seul modèle de RL dans plusieurs espaces de travail sans avoir à l'entraîner à nouveau et sans étapes manuelles fastidieuses pour le déplacer. » — Mihir Mavalankar, ingénieur Machine Learning, Ripple
AI21 Labs, leader de l'AI générative et des grands modèles de langage, a publié Jamba 1.5 Mini, qui fait partie de la famille de modèles Jamba 1.5, sur le Databricks Marketplace. Jamba 1.5 Mini d'AI21 Labs introduit une approche novatrice des modèles de langage AI pour les entreprises. Son architecture hybride innovante Mamba-Transformer permet d'obtenir une fenêtre de contexte effective de 256K jetons, tout en offrant une vitesse et une qualité exceptionnelles. Grâce à l'optimisation de Mini pour une utilisation efficace des ressources de calcul, il peut gérer des longueurs de contexte allant jusqu'à 140K jetons sur un seul GPU.
« AI21 Labs est ravi d'annoncer que Jamba 1.5 Mini est désormais disponible sur le Databricks Marketplace. Grâce à Delta Sharing, les entreprises peuvent accéder à notre architecture Mamba-Transformer, dotée d'une fenêtre de contexte de 256K, garantissant une vitesse et une qualité exceptionnelles pour des solutions AI transformatrices »— Pankaj Dugar, SVP & GM, AI21 Labs
Une fenêtre de contexte effective de 256K jetons dans les modèles AI fait référence à la capacité du modèle à traiter et à prendre en compte 256 000 jetons de texte à la fois. C'est un atout majeur car cela permet au modèle d'AI21 de gérer des ensembles de données volumineux et complexes, ce qui le rend particulièrement utile pour les tâches nécessitant la compréhension et l'analyse d'informations denses (comme de longs documents ou des flux de travail complexes et riches en données), tout en améliorant l'étape de récupération de tout flux de travail basé sur le RAG. L'architecture hybride de Jamba garantit que la qualité du modèle ne se dégrade pas à mesure que le contexte s'élargit, contrairement à ce que l'on observe généralement avec les fenêtres de contexte annoncées pour les LLM basés sur Transformer.

Découvrez ce tutoriel vidéo qui montre comment obtenir le modèle AI21 Jamba 1.5 Mini depuis le Databricks Marketplace, l'ajuster finement et le déployer.
La fenêtre de contexte de 256k de Jamba 1.5 Mini signifie que les modèles peuvent traiter efficacement l'équivalent de 800 pages de texte en une seule invite. Voici quelques exemples de la manière dont les clients de Databricks dans différents secteurs peuvent utiliser ces modèles :
Bitext propose des modèles verticalisés pré-entraînés sur le Databricks Marketplace. Ces modèles sont des versions du modèle Mistral-7B-Instruct-v0.2 fine-tunées pour la création de chatbots, d'assistants virtuels et de copilotes pour le secteur de la banque de détail, offrant aux clients des réponses rapides et précises à leurs besoins bancaires. Ces modèles peuvent être produits pour n'importe quelle famille de modèles de fondation : GPT, Llama, Mistral, Jamba, OpenELM…
Une App de trading social de premier plan enregistrait des taux d'abandon élevés lors de l'onboarding des utilisateurs. Elle a exploité les modèles bancaires verticalisés pré-entraînés de Bitext pour moderniser son processus d'onboarding, transformant des formulaires statiques en une expérience utilisateur conversationnelle, intuitive et personnalisée.
Bitext a partagé le modèle AI verticalisé avec le client. En utilisant ce modèle comme base, un data scientist a effectué le fine-tuning initial avec des données spécifiques au client, telles que les FAQ courantes. Cette étape a permis de s'assurer que le modèle comprenait les exigences uniques et le langage des utilisateurs. Cela a été suivi d'un Fine-Tuning avancé avec Databricks.
Une fois le modèle Bitext fine-tuné, il a été déployé à l'aide de Databricks AI Model Serving.
Cette collaboration a établi une nouvelle norme en matière d'interaction utilisateur dans le secteur de la finance sociale, améliorant considérablement l'engagement et la rétention des clients. Grâce au démarrage rapide facilité par le modèle AI partagé, l'implémentation complète a été réalisée en seulement 2 semaines.
Découvrez la démo qui montre comment installer et fine-tuner le modèle AI verticalisé de Bitext depuis le Databricks Marketplace ici
"Contrairement aux modèles génériques qui nécessitent une grande quantité de données d'entraînement, commencer avec un modèle spécialisé pour un secteur spécifique réduit le volume de données nécessaires pour le personnaliser. Cela aide les clients à déployer rapidement des modèles AI sur mesure. Nous sommes ravis du partage de modèles AI. Nos clients ont constaté une réduction allant jusqu'à 60 % des coûts de ressources (moins de data scientists et des besoins de calcul inférieurs) et jusqu'à 50 % d'économies sur les perturbations opérationnelles (tests et déploiement plus rapides) grâce à nos modèles AI spécialisés disponibles sur le Databricks Marketplace." — Antonio S. Valderrábanos , Fondateur & CEO, Bitext
| Composants de coût | Approche LLM générique | Modèle verticalisé de Bitext sur le Databricks Marketplace | Économies de coûts (%) |
| Verticalisation | Élevé - Fine-tuning approfondi pour le secteur et le cas d'usage | Faible - Démarrage avec un LLM vertical pré-fine-tuné | 60 % |
| Personnalisation avec les données de l'entreprise | Moyen - Fine-tuning supplémentaire requis | Faible - Personnalisation spécifique requise | 30 % |
| Temps d'entraînement total | 3 à 6 mois | 1 à 2 mois | Réduction de 50 à 60 % |
| Allocation des ressources | Élevée - Plus de data scientists et de puissance de calcul | Faible - Moins intensif | 40 à 50 % |
| Perturbation opérationnelle | Élevée - Phases d'intégration et de test plus longues | Faible - Déploiement plus rapide | 50 % |
Maintenant que le partage de modèles AI est généralement disponible (GA) pour Delta Sharing et les nouveaux modèles AI sur le Databricks Marketplace, nous vous encourageons à :
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.