Las GPUs potencian las cargas de trabajo de IA más avanzadas de la actualidad, desde predicciones y recomendaciones hasta modelos fundacionales multimodales. Sin embargo, los equipos tienen dificultades para adquirir y gestionar la infraestructura de GPUs, configurar entornos de entrenamiento distribuidos y depurar cuellos de botella en la carga de datos. Los investigadores de aprendizaje profundo prefieren centrarse en el modelado, no en la resolución de problemas de infraestructura.
Nos complace anunciar la Vista Previa Pública de AI Runtime (AIR), una nueva pila de entrenamiento que permite el entrenamiento distribuido de GPUs bajo demanda en A10 y H100. AI Runtime contiene toda la tecnología utilizada para el entrenamiento a gran escala de LLMs como MPT y DBRX. Incluso en Beta, varios cientos de clientes, incluidos Rivian, Factset y YipitData, han utilizado AIR para entrenar y lanzar modelos de aprendizaje profundo en producción. Los casos de uso abarcan desde modelos de visión por computadora hasta sistemas de recomendación y LLMs ajustados para tareas de agentes. Nuestro propio equipo de Investigación de IA de Databricks utilizó AIR para el aprendizaje por refuerzo de modelos como en nuestro reciente artículo sobre KARL.
Con AI Runtime, los usuarios de Databricks ahora tienen:

Para desarrollo interactivo y depuración, conéctese a A10 y H100 bajo demanda en Databricks Notebooks con solo unos pocos clics. Desde allí, aproveche toda la ergonomía del desarrollador por la que Databricks es conocida, desde la gestión de entornos para paquetes comunes de Python hasta la autoría y depuración asistida por agente con Genie Code. Monte fácilmente datos del Lakehouse para entrenar modelos de aprendizaje profundo, o incluso invoque una flota de CPUs remotas para cargas de trabajo de procesamiento de datos de Spark desde su notebook con GPU para preparar sus datos.

Use Genie Code para ayudar a resolver cuellos de botella de rendimiento, experimentar con nuevas arquitecturas o depurar errores complicados en torno a la convergencia del modelo o errores crípticos del framework.
AI Runtime es una plataforma de grado de producción para computación acelerada. Desarrolle su código de aprendizaje profundo en notebooks interactivos y luego utilice toda la potencia de Lakeflow para enviar y orquestar trabajos en cómputo de GPU. Tanto los notebooks como los repositorios de código personalizado pueden ser ejecutados por Lakeflow para trabajos programados o de larga duración. Para necesidades de producción como CI/CD (integración continua y despliegue continuo), AI Runtime es totalmente compatible con nuestros Declarative Automation Bundles (DABs).
Con nuestra integración de Lakeflow, los clientes pueden mantener el entrenamiento y ajuste fino de modelos estrechamente sincronizados con los pipelines de datos upstream y los sistemas de producción downstream.
“El AI Runtime de Databricks simplificó enormemente el proceso de entrenamiento de un modelo personalizado de Texto a Fórmula (TTF). Sin configuración de infraestructura ni demoras, fue fácil elegir el cómputo adecuado según el tamaño del prompt y la generación de tokens de salida. Esto nos permitió avanzar rápidamente, mantener nuestros flujos de trabajo de Lakehouse y entregar un modelo de alta calidad con gobernanza completa, reduciendo el tiempo de configuración, entrenamiento y despliegue de nuestro modelo de días a horas.”— Nikhil Sunderraj, Ingeniero Principal de Machine Learning, FactSet Research Systems, Inc.

Las cargas de trabajo de entrenamiento distribuido pueden ser difíciles de preparar, depurar y observar. Desde la resolución de problemas de configuración de RDMA hasta el seguimiento de telemetría de múltiples GPUs y la configuración adecuada del software, los usuarios pueden pasar por alto fácilmente detalles críticos que ralentizan drásticamente el entrenamiento del modelo.
En cambio, AI Runtime está optimizado para todo el ciclo de vida del aprendizaje profundo y está diseñado para ahorrarle tiempo. Dependencias clave como PyTorch y CUDA vienen preinstaladas, junto con soporte optimizado para frameworks de entrenamiento distribuido como Ray, Hugging Face Transformers, Composer y otras bibliotecas, para que pueda comenzar a entrenar de inmediato sin gestionar entornos. Los clientes también son bienvenidos a traer sus propias bibliotecas, desde Unsloth hasta TorchRec o bucles de entrenamiento personalizados.

Los SDKs integrados y las herramientas de observabilidad simplifican la gestión de cargas de trabajo de entrenamiento distribuido. MLFlow permite una profunda observabilidad de las cargas de trabajo de GPU, con seguimiento automático de la utilización de GPU y experimentos de entrenamiento. Ya sea que esté ajustando modelos fundacionales o entrenando modelos de pronóstico y personalización, el runtime está optimizado para acelerar los flujos de trabajo de entrenamiento con una configuración mínima.

La Vista Previa Pública actual de AI Runtime admite entrenamiento distribuido en 8x H100s en un solo nodo, con soporte multi-nodo actualmente en Vista Previa Privada.
"El AI Runtime de Databricks nos permite ejecutar eficientemente cargas de trabajo de LLM (ajuste fino e inferencia) sin sobrecarga de infraestructura, directamente en nuestro lakehouse. Esta integración perfecta simplifica nuestros pipelines y proporciona un uso eficiente de las GPUs, lo que nos permite ofrecer información de IA de alta calidad a nuestros clientes y centrarnos en la innovación, no en la infraestructura."— Lucas Froguel, Ingeniero Senior de Plataforma de IA, YipitData
AI Runtime se integra de forma nativa con el Databricks Lakehouse, lo que le permite ejecutar y gobernar cargas de trabajo de GPU donde residen sus datos. Esto elimina los flujos de trabajo fragmentados y simplifica el camino desde la experimentación hasta la producción.
Sus cargas de trabajo de IA se ejecutan completamente dentro del perímetro de datos de su empresa, brindando una sólida gobernanza y seguridad sin sacrificar la flexibilidad para la experimentación y la escala.
"Aprovechar el soporte de GPU sin servidor de Databricks dentro de nuestro Lakehouse nos permite entrenar eficientemente modelos avanzados de audio y multimodales sin sobrecarga de infraestructura. Esta integración perfecta simplifica los flujos de trabajo y proporciona un uso eficiente de los recursos de GPU, asegurando que entreguemos sistemas de alto rendimiento y nos centremos en la innovación."— Arjuna Siva, VP de Infoentretenimiento y Conectividad, Rivian y Volkswagen Group Technologies
La demanda de cómputo acelerado sigue creciendo en las cargas de trabajo de IA y los sistemas agénticos. AI Runtime permite a más clientes de Databricks aprovechar el hardware de NVIDIA para acelerar sus cargas de trabajo de IA e impulsar sus negocios. Estamos entusiasmados de continuar asociándonos con NVIDIA para llevar la última tecnología de NVIDIA, como el RTX PRO 4500 Blackwell Server Edition, anunciado en GTC 2026 a nuestros clientes.
"A medida que la adopción de la IA se acelera en todas las industrias, las organizaciones necesitan una infraestructura escalable y de alto rendimiento para potenciar sus cargas de trabajo de datos e IA. Las tecnologías de NVIDIA brindan un rendimiento acelerado a la oferta de AI Runtime para la Plataforma Databricks Lakehouse."— Pat Lee, Vicepresidente de Alianzas Estratégicas en NVIDIA.
Para ayudarte a empezar, hemos preparado varios cuadernos de plantillas y guías de inicio:
¡Ponte en contacto con tu equipo de cuentas para obtener más información o si tienes alguna pregunta!
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original