11 de junio de 2025

MLflow 3.0: Crea, evalúa y despliega IA generativa con confianza

por Corey Zumar, Eric Peter, Alkis Polyzotis, Cathy Yin, Ian Ackerman, Nikhil Thorat, Ben Wilson, Maheswaran Venkatachalam, Matei Zaharia, Patrick Wendell y Akhil Gupta

MLflow 3.0 unifica el desarrollo de ML tradicional, aprendizaje profundo y GenAI en una sola plataforma, eliminando la necesidad de herramientas especializadas separadas
Las nuevas capacidades de GenAI incluyen seguimiento a escala de producción, experiencia de evaluación de calidad renovada, API e interfaz de usuario para recopilación de comentarios y seguimiento integral de versiones para prompts y aplicaciones
La plataforma permite un flujo de trabajo completo de desarrollo de GenAI: depura con seguimiento, mide la calidad con jueces LLM, mejora con comentarios de expertos, rastrea cambios con versionado y monitoriza en producción, todo demostrado a través de un ejemplo de chatbot de comercio electrónico

MLflow se ha convertido en la base de MLOps a escala, con más de 30 millones de descargas mensuales y contribuciones de más de 850 desarrolladores en todo el mundo que potencian cargas de trabajo de ML y aprendizaje profundo para miles de empresas. Hoy, estamos encantados de anunciar MLflow 3.0, una evolución importante que aporta el mismo rigor y fiabilidad a la IA generativa, al tiempo que mejora las capacidades principales para todas las cargas de trabajo de IA. Estas nuevas y potentes capacidades están disponibles tanto en MLflow de código abierto como en un servicio totalmente administrado en Databricks, donde ofrecen una experiencia de desarrollo de GenAI de nivel empresarial.

Si bien la IA generativa introduce nuevos desafíos en torno a la observabilidad, la medición de la calidad y la gestión de indicaciones y configuraciones en rápida evolución, MLflow 3.0 los aborda sin requerir que integre otra plataforma especializada. MLflow 3.0 es una plataforma unificada para aplicaciones de IA generativa, aprendizaje automático tradicional y aprendizaje profundo. Ya sea que esté creando agentes GenAI, entrenando clasificadores o ajustando redes neuronales, MLflow 3.0 proporciona flujos de trabajo consistentes, gobernanza estandarizada y fiabilidad de nivel de producción que se escala según sus necesidades.

MLflow 3.0 de un vistazo:

Capacidades completas de IA generativa: Seguimiento, jueces de LLM, recopilación de comentarios humanos, versionado de aplicaciones y gestión de indicaciones diseñados para ofrecer una alta calidad de aplicación y una observabilidad completa
Depuración rápida y análisis de causa raíz: Vea seguimientos completos con entradas, salidas, latencia y costo, vinculados a las indicaciones, datos y versiones de aplicaciones exactas que los produjeron
Mejora continua a partir de datos de producción: Convierta el uso y los comentarios del mundo real en mejores conjuntos de datos de evaluación y aplicaciones refinadas
Plataforma unificada: MLflow admite todas las cargas de trabajo de IA generativa, ML tradicional y aprendizaje profundo en una sola plataforma con herramientas consistentes para la colaboración, la gestión del ciclo de vida y la gobernanza
Escala empresarial en Databricks: Fiabilidad y rendimiento probados que potencian las cargas de trabajo de IA de producción para miles de organizaciones en todo el mundo

El desafío de GenAI: herramientas fragmentadas, calidad esquiva

La IA generativa ha cambiado nuestra forma de pensar sobre la calidad. A diferencia del ML tradicional con etiquetas de verdad fundamental, las salidas de GenAI son de formato libre, matizadas y variadas. Una sola indicación puede generar docenas de respuestas diferentes que son igualmente correctas. ¿Cómo se mide si la respuesta de un chatbot es "buena"? ¿Cómo se asegura de que su agente no esté alucinando? ¿Cómo se depuran cadenas complejas de indicaciones, recuperaciones y llamadas a herramientas?

Estas preguntas apuntan a tres desafíos principales que enfrenta cada organización al crear aplicaciones GenAI:

Observabilidad: Comprender lo que sucede dentro de su aplicación, especialmente cuando las cosas van mal
Medición de la calidad: Evaluar salidas de texto de formato libre a escala sin cuellos de botella manuales
Mejora continua: Crear bucles de retroalimentación que conviertan las ideas de producción en aplicaciones de mayor calidad

Hoy en día, las organizaciones que intentan resolver estos desafíos se enfrentan a un panorama fragmentado. Utilizan herramientas separadas para la gestión de datos, la observabilidad y la evaluación, y la implementación. Este enfoque crea brechas significativas: la depuración de problemas requiere saltar entre plataformas, la evaluación ocurre de forma aislada de los datos de producción reales y los comentarios de los usuarios nunca vuelven para mejorar la aplicación. Los equipos dedican más tiempo a integrar herramientas que a mejorar sus aplicaciones GenAI. Ante esta complejidad, muchas organizaciones renuncian a la garantía de calidad sistemática. Recurren a pruebas manuales no estructuradas, envían a producción cuando las cosas parecen "suficientemente buenas" y esperan lo mejor.

Resolver estos desafíos de GenAI para enviar aplicaciones de alta calidad requiere nuevas capacidades, pero no debería requerir hacer malabares con múltiples plataformas. Es por eso que MLflow 3.0 extiende nuestra probada base de MLOps para admitir GenAI de manera integral en una plataforma con una experiencia unificada que incluye:

Seguimiento integral para más de 20 bibliotecas GenAI, que proporciona visibilidad de cada solicitud en desarrollo y producción, con seguimientos vinculados al código, los datos y las indicaciones exactas que los generaron
Evaluación basada en investigación con jueces de LLM que miden sistemáticamente la calidad de GenAI e identifican oportunidades de mejora
Recopilación de comentarios integrada que captura información de usuarios finales y expertos de producción, independientemente de dónde implemente, y que se retroalimenta directamente a su pila de evaluación y observabilidad para una mejora continua de la calidad

"El seguimiento de MLflow 3.0 ha sido esencial para escalar nuestra plataforma de seguridad impulsada por IA. Nos brinda visibilidad de extremo a extremo en cada decisión del modelo, lo que nos ayuda a depurar más rápido, monitorear el rendimiento y garantizar que nuestras defensas evolucionen a medida que lo hacen las amenazas. Con la integración perfecta de LangChain y el registro automático, obtenemos todo esto sin sobrecarga de ingeniería adicional." — Sam Chou, Ingeniero Principal en Barracuda

Para demostrar cómo MLflow 3.0 transforma la forma en que las organizaciones crean, evalúan e implementan aplicaciones de IA generativa de alta calidad, seguiremos un ejemplo del mundo real: la creación de un chatbot de atención al cliente de comercio electrónico. Veremos cómo MLflow aborda cada uno de los tres desafíos principales de GenAI en el camino, lo que le permitirá pasar rápidamente de la depuración a la implementación. A lo largo de este viaje, aprovecharemos todo el poder de Managed MLflow 3.0 en Databricks, incluidas herramientas integradas como la Aplicación de Revisión, los Trabajos de Implementación y la gobernanza de Unity Catalog que hacen que el desarrollo de GenAI a nivel empresarial sea práctico a escala.

Paso 1: Identificar problemas de rendimiento con seguimiento de nivel empresarial

Su chatbot de comercio electrónico se ha lanzado en beta, pero los probadores se quejan de respuestas lentas y recomendaciones de productos inexactas. Sin visibilidad en las complejas cadenas de indicaciones, recuperaciones y llamadas a herramientas de su aplicación GenAI, está depurando a ciegas y experimentando el desafío de la observabilidad de primera mano.

El seguimiento a escala de producción de MLflow 3.0 lo cambia todo. Con solo unas pocas líneas de código, puede capturar seguimientos detallados de más de 20 bibliotecas GenAI y lógica de negocio personalizada en cualquier entorno, desde el desarrollo hasta la producción. El ligero paquete mlflow-tracing está optimizado para el rendimiento, lo que le permite registrar rápidamente tantos seguimientos como sea necesario. Construido sobre OpenTelemetry, proporciona observabilidad a escala empresarial con máxima portabilidad.

Después de instrumentar su código con MLflow Tracing, puede navegar a la UI de MLflow para ver cada seguimiento capturado automáticamente.

Después de instrumentar su código con MLflow Tracing, puede navegar a la UI de MLflow para ver cada seguimiento capturado automáticamente. La vista de línea de tiempo revela por qué las respuestas tardan más de 15 segundos: su aplicación verifica el inventario en cada almacén por separado (5 llamadas secuenciales) y recupera el historial completo de pedidos del cliente (más de 500 pedidos) cuando solo necesita compras recientes. Después de paralelizar las verificaciones de almacén y filtrar por pedidos recientes, el tiempo de respuesta se reduce en más del 50%.

Paso 2: Medir y mejorar la calidad con jueces de LLM

Con los problemas de latencia resueltos, nos centramos en la calidad porque los probadores beta todavía se quejan de recomendaciones de productos irrelevantes. Antes de poder mejorar la calidad, necesitamos medirla sistemáticamente. Esto resalta el segundo desafío de GenAI: ¿cómo se mide la calidad cuando las salidas de GenAI son de formato libre y variadas?

MLflow 3.0 simplifica la evaluación de la calidad. Cree un conjunto de datos de evaluación a partir de sus seguimientos de producción, luego ejecute jueces de LLM respaldados por investigación impulsados por Databricks Databricks MLflow:

These judges assess different aspects of quality for a GenAI trace and provide detailed rationales for the detected issues.

Estos evaluadores analizan diferentes aspectos de calidad para un rastro de GenAI y proporcionan justificaciones detalladas para los problemas detectados. Al observar los resultados de la evaluación, se revela el problema: si bien las puntuaciones de seguridad y fundamentación son buenas, la puntuación de relevancia de recuperación del 65% confirma que su sistema de recuperación a menudo recupera información incorrecta, lo que resulta en respuestas menos relevantes.

Los jueces de LLM de MLflow son evaluadores cuidadosamente ajustados que coinciden con la experiencia humana. Puede crear jueces personalizados utilizando directrices adaptadas a los requisitos de su negocio. Cree y versione conjuntos de datos de evaluación a partir de conversaciones reales de usuarios, incluidas interacciones exitosas, casos extremos y escenarios desafiantes. MLflow maneja la evaluación a escala, lo que hace que la evaluación sistemática de la calidad sea práctica para cualquier tamaño de aplicación.

Paso 3: Utilice la retroalimentación de expertos para mejorar la calidad

La puntuación de relevancia de recuperación del 65% apunta a su causa raíz, pero solucionarla requiere comprender qué debe recuperar el sistema. Ingrese a la Aplicación de Revisión, una interfaz web para recopilar retroalimentación estructurada de expertos sobre las salidas de IA, ahora integrada con MLflow 3.0. Este es el comienzo de su viaje de mejora continua para convertir las ideas de producción en aplicaciones de mayor calidad.

Crea sesiones de etiquetado donde los especialistas de producto revisan rastros con recuperaciones deficientes. Cuando un cliente solicita "auriculares inalámbricos por menos de $200 con soporte para códec aptX HD y más de 30 horas de batería", pero obtiene resultados genéricos de auriculares, sus expertos anotan exactamente qué productos cumplen TODOS los requisitos.

La Aplicación de Revisión permite a los expertos del dominio revisar respuestas reales y documentos de origen a través de una interfaz web intuitiva, sin necesidad de codificación. Marcan qué productos se recuperaron correctamente e identifican puntos de confusión (como auriculares con cable frente a inalámbricos). Las anotaciones de expertos se convierten en datos de entrenamiento para futuras mejoras y ayudan a alinear sus jueces de LLM con los estándares de calidad del mundo real.

The Review App

Paso 4: Rastree los cambios en prompts, código y configuración

Con las anotaciones de expertos en mano, reconstruye su sistema de recuperación. Cambia de la coincidencia de palabras clave a la búsqueda semántica que comprende las especificaciones técnicas y actualiza los prompts para ser más cauteloso con las características del producto no confirmadas. Pero, ¿cómo rastrea estos cambios y se asegura de que mejoren la calidad?
El seguimiento de versiones de MLflow 3.0 captura su aplicación completa como una instantánea, incluido el código de la aplicación, los prompts, los parámetros del LLM, la lógica de recuperación, los algoritmos de reclasificación y más. Cada versión conecta todos los rastros y métricas generados durante su uso. Cuando surgen problemas, puede rastrear cualquier respuesta problemática hasta la versión exacta que la produjo.

Version Tracking

Los prompts requieren especial atención: pequeños cambios de redacción pueden alterar drásticamente el comportamiento de su aplicación, lo que dificulta su prueba y la hace propensa a regresiones. Afortunadamente, el nuevo Registro de Prompts de MLflow aporta rigor de ingeniería específicamente a la gestión de prompts. Versiona los prompts con seguimiento estilo Git, prueba diferentes versiones en producción y revierte instantáneamente si es necesario. La interfaz de usuario muestra diferencias visuales entre versiones, lo que facilita ver qué cambió y comprender el impacto en el rendimiento. El Registro de Prompts de MLflow también se integra con los optimizadores de DSPy para generar prompts mejorados automáticamente a partir de sus datos de evaluación.

Con un seguimiento de versiones completo implementado, mida si sus cambios realmente mejoraron la calidad:

Los resultados confirman que sus correcciones funcionan: la relevancia de la recuperación salta del 65% al 91%, y la relevancia de la respuesta mejora al 93%.

Paso 5: Implementar y monitorear en producción

Con las mejoras verificadas en mano, es hora de implementar. Los trabajos de implementación de MLflow 3.0 garantizan que solo las aplicaciones validadas que cumplan sus requisitos de calidad lleguen a producción. El registro de una nueva versión de su aplicación activa automáticamente la evaluación y presenta los resultados para su aprobación, y la integración completa de Unity Catalog proporciona gobernanza y pistas de auditoría. Este mismo flujo de trabajo de registro de modelos admite modelos de ML tradicionales, modelos de aprendizaje profundo y aplicaciones de GenAI.

Después de que los trabajos de implementación ejecutan automáticamente verificaciones de calidad adicionales y las partes interesadas revisan los resultados, su chatbot mejorado pasa todas las puertas de calidad y se aprueba para producción. Ahora que va a atender a miles de clientes, instrumenta su aplicación para recopilar comentarios de los usuarios finales:

dashboards

Después de implementar en producción, sus paneles muestran que las tasas de satisfacción son sólidas, ya que los clientes obtienen recomendaciones de productos precisas gracias a sus mejoras. La combinación de monitoreo de calidad automatizado de sus jueces de LLM y retroalimentación de usuarios en tiempo real le da la confianza de que su aplicación está entregando valor. Si surgen problemas, tiene los rastros y la retroalimentación para comprenderlos y abordarlos rápidamente.

Mejora continua a través de datos

Los datos de producción son ahora tu hoja de ruta para mejorar. Esto completa el ciclo de mejora continua, desde las perspectivas de producción hasta las mejoras de desarrollo y viceversa. Exporta trazas con retroalimentación negativa directamente a conjuntos de datos de evaluación. Utiliza el Seguimiento de Versiones para comparar implementaciones e identificar qué funciona. Cuando surgen nuevos problemas, tienes un proceso sistemático: recopila trazas problemáticas, obtén anotaciones de expertos, actualiza tu aplicación y despliega con confianza. Cada problema se convierte en un caso de prueba permanente, evitando regresiones y construyendo una aplicación más sólida con el tiempo.

MLflow 3.0 nos dio la visibilidad que necesitábamos para depurar y mejorar nuestros agentes de Q&A con confianza. Lo que antes llevaba horas de conjeturas, ahora se puede diagnosticar en minutos, con trazabilidad completa en cada recuperación, paso de razonamiento y llamada a herramienta." — Daisuke Hashimoto, Tech Lead en Woven by Toyota.

Una Plataforma Unificada que Crece Contigo

MLflow 3.0 reúne todas estas capacidades de IA en una sola plataforma. La misma infraestructura de trazado que captura cada detalle de tus aplicaciones GenAI también proporciona visibilidad del serving de modelos de ML tradicionales. Los mismos flujos de trabajo de implementación cubren tanto modelos de deep learning como aplicaciones impulsadas por LLM. La misma integración con Unity Catalog proporciona mecanismos de gobernanza probados en batalla para todo tipo de activos de IA. Este enfoque unificado reduce la complejidad y garantiza una gestión coherente en todas las iniciativas de IA.

Las mejoras de MLflow 3.0 benefician a todas las cargas de trabajo de IA. La nueva abstracción LoggedModel para versionar aplicaciones GenAI también simplifica el seguimiento de checkpoints de deep learning a través de iteraciones de entrenamiento. Al igual que las versiones de GenAI se enlazan a sus trazas y métricas, los modelos de ML tradicionales y los checkpoints de deep learning ahora mantienen un linaje completo que conecta las ejecuciones de entrenamiento, los conjuntos de datos y las métricas de evaluación calculadas en diferentes entornos. Los Deployment Jobs garantizan implementaciones de machine learning de alta calidad con puertas de calidad automatizadas para cada tipo de modelo. Estos son solo algunos ejemplos de las mejoras que MLflow 3.0 aporta a los modelos clásicos de ML y deep learning a través de su gestión unificada de todos los tipos de activos de IA.

Como base para MLOps y observabilidad de IA en Databricks, MLflow 3.0 se integra perfectamente con toda la Plataforma Mosaic AI. MLflow aprovecha Unity Catalog para la gobernanza centralizada de modelos, aplicaciones GenAI, prompts y conjuntos de datos. Incluso puedes usar Databricks AI/BI para crear dashboards a partir de tus datos de MLflow, convirtiendo las métricas de IA en insights de negocio.

Primeros Pasos con MLflow 3.0

Ya sea que estés empezando con GenAI o gestionando cientos de modelos y agentes a escala, Managed MLflow 3.0 en Databricks tiene las herramientas que necesitas. Únete a miles de organizaciones que ya utilizan MLflow y descubre por qué se ha convertido en el estándar para el desarrollo de IA.

Regístrate GRATIS en Managed MLflow en Databricks para empezar a usar MLflow 3.0 en minutos. Obtendrás fiabilidad de nivel empresarial, seguridad e integraciones perfectas con toda la Databricks Lakehouse Platform.

Para los usuarios actuales de Databricks Managed MLflow, actualizar a MLflow 3.0 te da acceso inmediato a potentes nuevas capacidades. Tus experimentos, modelos y flujos de trabajo actuales seguirán funcionando sin problemas mientras obtienes trazado de nivel de producción, LLM judges, monitorización en línea y más para tus aplicaciones de IA generativa, sin necesidad de migración.

Próximos Pasos

Lee la documentación para guías y tutoriales completos
Prueba el quickstart para ver Managed MLflow 3.0 en acción
Únete a la comunidad para conectar con miles de usuarios de MLflow

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs