16 de junio de 2026

Presentamos Genie ZeroOps: pon tus operaciones de datos y AI en piloto automático

Un agente de AI en segundo plano que monitorea tus cargas de trabajo de producción, investiga problemas y sugiere soluciones que puedes verificar

por Bilal Aslam, Lennart Kats, Ray Zhu, Mike Del Balso y Ori Zohar

Los equipos de datos pasan la mayor parte de su tiempo en el mantenimiento, no en la construcción, y esa carga está creciendo a medida que la AI hace que sea más rápido lanzar pipelines y modelos.
Los agentes de codificación ayudan a construir, pero no pueden automatizar las operaciones ya que no forman parte de la plataforma de datos y no pueden acceder a las métricas, los registros (logs) y el linaje. Es importante destacar que no pueden acceder de forma segura a los datos de producción.
Genie ZeroOps es un agente en segundo plano integrado en Databricks que monitorea, investiga y propone soluciones de forma autónoma para activos de datos y AI, como pipelines, trabajos, tablas, modelos de ML y más.

El trabajo de datos y AI siempre ha tenido un problema de mantenimiento. Los pipelines de datos se rompen constantemente, no solo debido a problemas de código, sino también a problemas con los datos, como cambios de esquema en origen o datos que llegan tarde. Los modelos de ML sufren desviaciones (drift), y los modelos degradados siguen ofreciendo respuestas incorrectas con total seguridad mucho antes de que se produzca un error. La responsabilidad de mantener los activos de datos y AI funcionando en producción recae sobre los equipos de datos, y no hace más que crecer. El auge de los LLM y las herramientas basadas en agentes ha hecho que crear pipelines y lanzar modelos sea más rápido que nunca. Como resultado, los equipos de datos informan que pasan la mayor parte de su tiempo apagando incendios en lugar de construir.

Operaciones basadas en agentes con Genie ZeroOps

Para ayudar a los equipos de datos con esta carga operativa, hemos creado Genie ZeroOps: un agente autónomo en segundo plano que monitorea tus activos de datos y AI (como pipelines, trabajos, tablas y modelos de ML) y toma medidas antes o cuando las cosas salen mal. Como se ejecuta dentro de Databricks, tiene un acceso seguro y sencillo a:

Observabilidad completa: métricas, eventos, registros (logs) e historial de ejecución desde la capa de observabilidad de la plataforma.
Linaje de datos a través de Unity Catalog: el gráfico de dependencias completo de cada activo, para que pueda rastrear las fallas hasta su verdadera causa raíz.
Entornos de sandbox: Genie ZeroOps realiza clones superficiales (shallow clones) de los datos de producción (creando un clon de tabla utilizando metadatos sin duplicar los datos subyacentes) en un entorno aislado, aplica límites de permisos y aislamiento de red, y valida una propuesta de solución con datos reales sin tocar la producción.

Este es el proceso que ejecuta para cada falla:

Detectar: monitoreo continuo con acceso a la observabilidad de la plataforma, incluidas las fallas silenciosas que aparecen en las métricas de calidad de datos antes de generar cualquier error.
Evaluar: el linaje de Unity Catalog le da a Genie ZeroOps el gráfico de dependencias completo. Puede rastrear una falla hasta un error de código, un cambio de esquema tres tablas arriba (upstream) o datos erróneos introducidos por otro pipeline.
Remediar: la generación de código basada en agentes produce la solución, utilizando tu flujo de trabajo de desarrollo (PR de GitHub, tickets de Jira) como contexto.
Verificar: Genie ZeroOps ejecuta un sandbox seguro con clones de copia cero (zero-copy clones) de tus datos, permisos acotados y aislamiento de red. La solución propuesta se ejecuta allí con datos reales, nunca en producción, y no se aplica nada hasta que lo apruebes.

Interfaz de usuario (UI) de la bandeja de entrada de Genie ZeroOps que muestra incidentes ordenados por gravedad

Genie ZeroOps te muestra una visualización de los activos afectados y el análisis de causa raíz que realizó utilizando datos de linaje

Se proporcionan sugerencias de solución con una indicación de la validación en el sandbox

Por qué los agentes de codificación no pueden resolver las operaciones de datos y AI

¿Por qué necesitas un agente diseñado específicamente para operaciones de datos y AI? ¿No puedes usar el mismo agente de codificación que te ayuda a crear software y obtener los mismos resultados? La respuesta es: "no, en realidad no".

Los agentes de codificación se crearon para la ingeniería de software, pero la ingeniería de datos y la AI son fundamentalmente diferentes:

El contexto incluye datos, no solo código. Las fallas en los pipelines a menudo se deben a cambios de esquema en origen, datos erróneos que se propagan a través de una cadena de dependencias o corrupción silenciosa. Nada de esto te lo puede revelar el código por sí solo.
Las fallas pueden ser silenciosas y permanentes. Un error de datos puede permanecer silenciosamente en una tabla de producción durante semanas, afectando a los consumidores descendentes (downstream). Para cuando lo encuentras, las implicaciones comerciales ya se han materializado.
Los datos de producción son confidenciales y están gobernados. A diferencia del código, no se pueden copiar, compartir ni entregar libremente a una herramienta externa.

Cuando algo se rompe, necesitas: detectarlo, evaluar la causa raíz, remediarlo con una solución y verificar que funcione sin efectos secundarios.

Examina cada paso y verás que los agentes de codificación suelen quedarse cortos. Para la detección, pueden carecer de contexto, como la telemetría, o saturarse con contextos extremadamente grandes, como los registros (logs) de Apache Spark™. Para la evaluación, al buscar la causa raíz y su impacto, a menudo carecen de acceso a los datos de linaje. Tampoco disponen de un entorno de pruebas diseñado específicamente para el trabajo con datos y AI, lo que hace que el proceso sea más costoso y requiera más tiempo. Los agentes de codificación pueden escribir código para la remediación, pero a menudo carecen del contexto para hacerlo bien y no pueden solucionar problemas relacionados con los datos. Sin embargo, el paso más desafiante para los agentes de codificación es la verificación.

La verificación requiere probar las soluciones de código con datos de producción reales en un entorno aislado. No puedes darle a un agente externo acceso a los datos de producción y, aunque lo hicieras, ejecutar código contra ellos conlleva el riesgo de efectos secundarios que pueden tener consecuencias devastadoras.

Para que un agente pueda encargarse del paso de verificación de forma segura, debe formar parte de la propia plataforma de datos. Genie ZeroOps es parte de la plataforma Databricks, y eso es lo que hace que tenga éxito donde los agentes de codificación fallan.

Las cargas de trabajo de machine learning en particular muestran los beneficios de un agente diseñado específicamente para el trabajo de operaciones.

Genie ZeroOps para machine learning

El ML en producción introduce algunos desafíos adicionales a la ingeniería de datos. Un modelo puede no tener errores de pipeline y, aun así, producir predicciones incorrectas, lo que significa que mantener los pipelines en funcionamiento no es suficiente; necesitas vigilar si los resultados del modelo siguen siendo confiables.

Cuando no lo son, Genie ZeroOps diagnostica la causa, crea un candidato corregido y lo valida antes de que llegue al tráfico en vivo. Para una solución de pipeline, lo valida contra un clon superficial (shallow clone) de una tabla. Para un modelo, entrena a un candidato con características (features) corregidas y lo evalúa con el mismo conjunto de evaluación (eval suite) y los mismos criterios a los que se sometió el modelo de producción, no con un benchmark genérico. Presenta al candidato solo si es mediblemente mejor y te permite introducirlo gradualmente en el tráfico en vivo antes de que tome el control.

Lo que hace que esas soluciones sean confiables es el contexto. Genie ZeroOps para ML se basa en los mismos cimientos que Genie Code, Genie Ontology y la integración nativa con el stack de ML de Databricks (Feature Store, MLflow, model serving, notebooks). Sabe qué características (features) utiliza tu modelo, cómo lo evalúa tu equipo y qué significa 'bueno' para tu negocio, por lo que razona de la misma manera que lo harían tus ingenieros de ML sénior.

Tú mantienes el control

Tú configuras qué activos monitorea Genie ZeroOps y qué está autorizado a hacer. Todo se ejecuta bajo la gobernanza de Unity Catalog, por lo que solo puede acceder a los datos que tus propias credenciales permitan. Los problemas aparecen en una interfaz de usuario (UI) tipo bandeja de entrada, priorizados por gravedad, cada uno con un análisis de causa raíz y una propuesta de solución. Nada se aplica a producción sin tu aprobación.

El sandbox es la capa de confianza técnica. El clonado superficial (shallow cloning) significa que la solución se prueba con datos reales, pero la producción nunca se toca. Los permisos acotados y el aislamiento de red significan que el entorno de sandbox no puede salir de sus límites. Lo que se probó es exactamente lo que se aplica.

Genie ZeroOps llegará pronto

Genie ZeroOps entrará en vista previa privada (private preview) en las próximas semanas, comenzando con el soporte para trabajos, pipelines, tablas y cargas de trabajo de ML. Las aplicaciones y las bases de datos Lakebase están en la hoja de ruta (roadmap).

Habla con tu equipo de cuentas de Databricks para solicitar acceso anticipado. Mientras tanto, explora otros miembros de la familia Genie como Genie One y Genie Code.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs