Les GPU alimentent les charges de travail d'IA les plus avancées d'aujourd'hui, de la prévision et des recommandations aux modèles fondamentaux multimodaux. Cependant, les équipes ont du mal à se procurer et à gérer l'infrastructure GPU, à configurer des environnements d'entraînement distribué et à déboguer les goulots d'étranglement du chargement des données. Les chercheurs en apprentissage profond préfèrent se concentrer sur la modélisation, pas sur le dépannage de l'infrastructure.
Nous sommes ravis d'annoncer la préversion publique de AI Runtime (AIR), une nouvelle pile d'entraînement qui permet l'entraînement distribué de GPU à la demande sur les A10 et H100. AI Runtime contient toute la technologie utilisée pour l'entraînement à grande échelle des LLM tels que MPT et DBRX. Même en version bêta, plusieurs centaines de clients, dont Rivian, Factset et YipitData, ont utilisé AIR pour entraîner et déployer des modèles d'apprentissage profond en production. Les cas d'utilisation vont des modèles de vision par ordinateur aux systèmes de recommandation en passant par les LLM affinés pour des tâches d'agent. Notre propre équipe de recherche en IA de Databricks a utilisé AIR pour l'apprentissage par renforcement de modèles tels que dans notre récent article sur KARL.
Avec AI Runtime, les utilisateurs de Databricks disposent désormais de :

Pour le développement et le débogage interactifs, connectez-vous aux A10 et H100 à la demande dans les notebooks Databricks en quelques clics. À partir de là, tirez parti de toutes les ergonomies de développeur pour lesquelles Databricks est connu, de la gestion de l'environnement pour les packages Python courants à la création et au débogage assistés par agent avec Genie Code. Montez facilement des données du Lakehouse pour entraîner des modèles d'apprentissage profond, ou même invoquez une flotte de CPU distants pour des charges de travail de traitement de données Spark à partir de votre notebook alimenté par GPU pour préparer vos données.

Utilisez Genie Code pour aider à résoudre les goulots d'étranglement de performance, expérimenter de nouvelles architectures, ou déboguer des bugs complexes autour de la convergence de modèles ou d'erreurs cryptiques de framework.
AI Runtime est une plateforme de qualité production pour le calcul accéléré. Développez votre code d'apprentissage profond dans des notebooks interactifs, puis utilisez toute la puissance de Lakeflow pour soumettre et orchestrer des tâches sur des calculs GPU. Les notebooks et les dépôts de code personnalisés peuvent être exécutés par Lakeflow pour des tâches planifiées ou de longue durée. Pour les besoins de production tels que CI/CD (intégration continue et déploiement continu), AI Runtime est entièrement compatible avec nos Declarative Automation Bundles (DABs).
Avec notre intégration Lakeflow, les clients peuvent maintenir l'entraînement et le réglage fin des modèles étroitement synchronisés avec les pipelines de données en amont et les systèmes de production en aval.
« L'AI Runtime de Databricks a considérablement simplifié le processus d'entraînement d'un modèle personnalisé Text To Formula (TTF). Sans configuration d'infrastructure ni délais, il était facile de choisir le bon calcul en fonction de la taille de l'invite et de la génération de jetons de sortie. Cela nous a permis d'avancer rapidement, de maintenir nos flux de travail Lakehouse et de livrer un modèle de haute qualité avec une gouvernance complète, réduisant le temps de configuration, d'entraînement et de déploiement de notre modèle de jours à quelques heures. »— Nikhil Sunderraj Principal Machine Learning Engineer, FactSet Research Systems, Inc.

Les charges de travail d'entraînement distribué peuvent être difficiles à préparer, à déboguer et à observer. Du dépannage des configurations RDMA au suivi de la télémétrie de plusieurs GPU en passant par la configuration logicielle appropriée, les utilisateurs peuvent facilement manquer des détails critiques qui ralentissent considérablement l'entraînement des modèles.
Au lieu de cela, AI Runtime est optimisé pour l'ensemble du cycle de vie de l'apprentissage profond et est conçu pour vous faire gagner du temps. Les dépendances clés comme PyTorch et CUDA sont préinstallées, avec une prise en charge optimisée des frameworks d'entraînement distribué tels que Ray, Hugging Face Transformers, Composer et d'autres bibliothèques, afin que vous puissiez commencer à entraîner immédiatement sans gérer les environnements. Les clients sont également invités à apporter leurs propres bibliothèques, d'Unsloth à TorchRec en passant par des boucles d'entraînement personnalisées.

Les SDK intégrés et les outils d'observabilité simplifient la gestion des charges de travail d'entraînement distribué. MLFlow permet une observation approfondie des charges de travail GPU, avec un suivi automatique de l'utilisation des GPU et des expériences d'entraînement. Que vous affiniez des modèles fondamentaux ou que vous entraîniez des modèles de prévision et de personnalisation, le runtime est optimisé pour accélérer les flux de travail d'entraînement avec une configuration minimale.

La préversion publique actuelle d'AI Runtime prend en charge l'entraînement distribué sur 8x H100 dans un seul nœud, avec une prise en charge multi-nœuds actuellement en préversion privée.
« L'AI Runtime de Databricks nous permet d'exécuter efficacement des charges de travail LLM (réglage fin et inférence) sans surcharge d'infrastructure, directement dans notre lakehouse. Cette intégration transparente simplifie nos pipelines et permet une utilisation efficace des GPU, nous permettant de fournir des informations d'IA de haute qualité à nos clients et de nous concentrer sur l'innovation, pas sur l'infrastructure. »— Lucas Froguel, Senior AI Platform Engineer, YipitData
AI Runtime s'intègre nativement au Databricks Lakehouse, vous permettant d'exécuter et de gouverner les charges de travail GPU là où résident vos données. Cela élimine les flux de travail fragmentés et simplifie le chemin de l'expérimentation à la production.
Vos charges de travail d'IA s'exécutent entièrement dans le périmètre de données de votre entreprise, offrant une gouvernance et une sécurité solides sans sacrifier la flexibilité pour l'expérimentation et l'échelle.
« Tirer parti du support GPU sans serveur de Databricks au sein de notre Lakehouse nous permet d'entraîner efficacement des modèles audio et multimodaux avancés sans surcharge d'infrastructure. Cette intégration transparente simplifie les flux de travail et permet une utilisation efficace des ressources GPU, garantissant que nous fournissons des systèmes haute performance et que nous nous concentrons sur l'innovation. »— Arjuna Siva, VP of Infotainment & Connectivity, Rivian and Volkswagen Group Technologies
La demande de calcul accéléré continue de croître pour les charges de travail d'IA et les systèmes d'agents. AI Runtime permet à davantage de clients Databricks d'exploiter le matériel NVIDIA pour accélérer leurs charges de travail d'IA et faire progresser leurs activités. Nous sommes ravis de continuer à nous associer à NVIDIA pour apporter aux clients la dernière technologie NVIDIA, comme le RTX PRO 4500 Blackwell Server Edition, annoncé lors du GTC 2026.
"Alors que l'adoption de l'IA s'accélère dans tous les secteurs, les organisations ont besoin d'une infrastructure évolutive et haute performance pour alimenter leurs charges de travail de données et d'IA. Les technologies NVIDIA apportent des performances accélérées à l'offre AI Runtime pour la Databricks Lakehouse Platform."— Pat Lee, Vice-président, Partenariats stratégiques chez NVIDIA.
Pour vous aider à démarrer, nous avons rassemblé plusieurs notebooks modèles et guides de démarrage :
Veuillez contacter votre équipe commerciale pour en savoir plus ou si vous avez des questions !
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original