Un agente de AI en segundo plano que monitorea tus cargas de trabajo de producción, investiga problemas y sugiere soluciones que puedes verificar
por Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso y Ori Zohar
El trabajo de datos y AI siempre ha tenido un problema de mantenimiento. Los pipelines de datos se rompen constantemente, no solo debido a problemas de código, sino también a problemas con los datos, como cambios de esquema en origen o datos que llegan tarde. Los modelos de ML sufren desviaciones (drift), y los modelos degradados siguen ofreciendo respuestas incorrectas con total seguridad mucho antes de que se produzca un error. La responsabilidad de mantener los activos de datos y AI funcionando en producción recae sobre los equipos de datos, y no hace más que crecer. El auge de los LLM y las herramientas basadas en agentes ha hecho que crear pipelines y lanzar modelos sea más rápido que nunca. Como resultado, los equipos de datos informan que pasan la mayor parte de su tiempo apagando incendios en lugar de construir.
Para ayudar a los equipos de datos con esta carga operativa, hemos creado Genie ZeroOps: un agente autónomo en segundo plano que monitorea tus activos de datos y AI (como pipelines, trabajos, tablas y modelos de ML) y toma medidas antes o cuando las cosas salen mal. Como se ejecuta dentro de Databricks, tiene un acceso seguro y sencillo a:
Este es el proceso que ejecuta para cada falla:
¿Por qué necesitas un agente diseñado específicamente para operaciones de datos y AI? ¿No puedes usar el mismo agente de codificación que te ayuda a crear software y obtener los mismos resultados? La respuesta es: "no, en realidad no".
Los agentes de codificación se crearon para la ingeniería de software, pero la ingeniería de datos y la AI son fundamentalmente diferentes:
Cuando algo se rompe, necesitas: detectarlo, evaluar la causa raíz, remediarlo con una solución y verificar que funcione sin efectos secundarios.
Examina cada paso y verás que los agentes de codificación suelen quedarse cortos. Para la detección, pueden carecer de contexto, como la telemetría, o saturarse con contextos extremadamente grandes, como los registros (logs) de Apache Spark™. Para la evaluación, al buscar la causa raíz y su impacto, a menudo carecen de acceso a los datos de linaje. Tampoco disponen de un entorno de pruebas diseñado específicamente para el trabajo con datos y AI, lo que hace que el proceso sea más costoso y requiera más tiempo. Los agentes de codificación pueden escribir código para la remediación, pero a menudo carecen del contexto para hacerlo bien y no pueden solucionar problemas relacionados con los datos. Sin embargo, el paso más desafiante para los agentes de codificación es la verificación.
La verificación requiere probar las soluciones de código con datos de producción reales en un entorno aislado. No puedes darle a un agente externo acceso a los datos de producción y, aunque lo hicieras, ejecutar código contra ellos conlleva el riesgo de efectos secundarios que pueden tener consecuencias devastadoras.
Para que un agente pueda encargarse del paso de verificación de forma segura, debe formar parte de la propia plataforma de datos. Genie ZeroOps es parte de la plataforma Databricks, y eso es lo que hace que tenga éxito donde los agentes de codificación fallan.
Las cargas de trabajo de machine learning en particular muestran los beneficios de un agente diseñado específicamente para el trabajo de operaciones.
El ML en producción introduce algunos desafíos adicionales a la ingeniería de datos. Un modelo puede no tener errores de pipeline y, aun así, producir predicciones incorrectas, lo que significa que mantener los pipelines en funcionamiento no es suficiente; necesitas vigilar si los resultados del modelo siguen siendo confiables.
Cuando no lo son, Genie ZeroOps diagnostica la causa, crea un candidato corregido y lo valida antes de que llegue al tráfico en vivo. Para una solución de pipeline, lo valida contra un clon superficial (shallow clone) de una tabla. Para un modelo, entrena a un candidato con características (features) corregidas y lo evalúa con el mismo conjunto de evaluación (eval suite) y los mismos criterios a los que se sometió el modelo de producción, no con un benchmark genérico. Presenta al candidato solo si es mediblemente mejor y te permite introducirlo gradualmente en el tráfico en vivo antes de que tome el control.
Lo que hace que esas soluciones sean confiables es el contexto. Genie ZeroOps para ML se basa en los mismos cimientos que Genie Code, Genie Ontology y la integración nativa con el stack de ML de Databricks (Feature Store, MLflow, model serving, notebooks). Sabe qué características (features) utiliza tu modelo, cómo lo evalúa tu equipo y qué significa 'bueno' para tu negocio, por lo que razona de la misma manera que lo harían tus ingenieros de ML sénior.
Tú configuras qué activos monitorea Genie ZeroOps y qué está autorizado a hacer. Todo se ejecuta bajo la gobernanza de Unity Catalog, por lo que solo puede acceder a los datos que tus propias credenciales permitan. Los problemas aparecen en una interfaz de usuario (UI) tipo bandeja de entrada, priorizados por gravedad, cada uno con un análisis de causa raíz y una propuesta de solución. Nada se aplica a producción sin tu aprobación.
El sandbox es la capa de confianza técnica. El clonado superficial (shallow cloning) significa que la solución se prueba con datos reales, pero la producción nunca se toca. Los permisos acotados y el aislamiento de red significan que el entorno de sandbox no puede salir de sus límites. Lo que se probó es exactamente lo que se aplica.
Genie ZeroOps entrará en vista previa privada (private preview) en las próximas semanas, comenzando con el soporte para trabajos, pipelines, tablas y cargas de trabajo de ML. Las aplicaciones y las bases de datos Lakebase están en la hoja de ruta (roadmap).
Habla con tu equipo de cuentas de Databricks para solicitar acceso anticipado. Mientras tanto, explora otros miembros de la familia Genie como Genie One y Genie Code.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.