A medida que las empresas pasan de experimentar con la IA generativa a implementar sistemas agénticos en producción, la conversación está cambiando. La pregunta que se hacen los ejecutivos ya no es "¿Puede este modelo razonar?", sino "¿Se puede confiar en este sistema?".
Para explorar lo que realmente significa ese cambio, me senté con Maria Zervou, directora de IA (Chief AI Officer) para EMEA en Databricks. Maria trabaja en estrecha colaboración con clientes de industrias reguladas y de rápido movimiento, y dedica su tiempo a la intersección de la arquitectura de IA, la gobernanza y la ejecución en el mundo real.
Durante toda la conversación, María volvía al mismo punto: el éxito con la IA agéntica no depende del modelo. Depende de los sistemas que lo rodean: datos, disciplina de ingeniería y una responsabilidad clara.
Catherine Brown: Muchos ejecutivos con los que hablo todavía equiparan la calidad de la IA con lo impresionante que parece el modelo. Has sostenido que ese es el enfoque equivocado. ¿Por qué?
Maria Zervou: El mayor malentendido que veo es que la gente confunde la inteligencia de un modelo o su capacidad de razonamiento percibida con la calidad. No son lo mismo.
La calidad, especialmente en los sistemas agénticos, se trata de una fiabilidad compuesta. Ya no estás evaluando una única respuesta. Estás evaluando un sistema que podría realizar cientos de pasos: recuperar datos, llamar a herramientas, tomar decisiones, escalar problemas. Incluso los errores pequeños pueden acumularse de formas impredecibles.
Entonces, las preguntas cambian. ¿El agente usó los datos correctos? ¿Encontró los recursos adecuados? ¿Supo cuándo detenerse o escalar? Ahí es donde realmente reside la calidad.
Y, lo que es más importante, la calidad significa cosas diferentes para las distintas partes interesadas. Los equipos técnicos suelen centrarse en los KPI, como el costo, la latencia o el rendimiento. A los usuarios finales les importa el cumplimiento de la marca, el tono y las restricciones legales. Entonces, si esas perspectivas no están alineadas, terminas optimizando lo incorrecto.
Catherine: Eso es interesante, sobre todo porque muchos líderes suponen que los sistemas de IA tienen que ser "perfectos" para poder utilizarse, especialmente en entornos regulados. ¿Cómo deberían las empresas de industrias altamente reguladas abordar las iniciativas de IA?
Maria: En los sectores altamente regulados, sí se necesita una precisión muy alta, pero el primer parámetro de referencia debería ser el rendimiento humano. Los humanos se equivocan todo el tiempo. Si no anclas las expectativas a la realidad, nunca avanzarás.
Lo que más importa es la trazabilidad y la rendición de cuentas. Cuando algo sale mal, ¿puedes rastrear por qué se tomó una decisión? ¿Quién es el responsable del resultado? ¿Qué datos se usaron? Si no puedes responder a esas preguntas, el sistema no está listo para producción, sin importar lo impresionante que se vea el resultado.
Catherine: Hablas mucho de los agentes específicos de dominio frente a los modelos de propósito general. ¿Cómo deberían los ejecutivos pensar en esa distinción?
Maria: Un modelo de propósito general es, en esencia, un motor de razonamiento muy capaz, entrenado con conjuntos de datos muy grandes y diversos. Pero no entiende tu negocio. Un agente específico de dominio utiliza los mismos modelos base, pero se vuelve más poderoso a través del contexto. Lo fuerzas a un caso de uso predefinido. Limitas el espacio en el que puede buscar. Le enseñas qué significan tus KPI, qué significa tu terminología y qué acciones puede realizar.
Esa restricción es, en realidad, lo que lo hace mejor. Al acotar el dominio, se reducen las alucinaciones y aumenta la confiabilidad de los resultados. La mayor parte del valor no proviene del modelo en sí. Proviene de los datos exclusivos a los que puede acceder de forma segura, la capa semántica que define el significado y las herramientas que se le permite usar. Básicamente, puede razonar sobre tus datos. Ahí es donde reside la ventaja competitiva.
Catherine: ¿Dónde sueles ver que fallan los flujos de trabajo de los agentes de IA cuando las organizaciones intentan pasar del prototipo a la producción?
Maria: Hay tres puntos principales de falla. El primero es el desajuste de ritmo. La tecnología avanza más rápido que la mayoría de las organizaciones. Los equipos se lanzan a construir agentes antes de haber realizado el trabajo de base sobre el acceso a los datos, la seguridad y la estructura.
El segundo es el conocimiento tácito. Gran parte de lo que hace eficaces a los empleados reside en la mente de las personas o en documentos dispersos. Si ese conocimiento no está codificado en un formato que un agente pueda usar, el sistema nunca se comportará de la manera que la empresa espera.
El tercero es la infraestructura. Muchos equipos no planifican para la escala o el uso en el mundo real. Construyen algo que funciona una vez, en una demostración, pero que colapsa bajo la carga de producción.
Los tres problemas suelen aparecer juntos.
Catherine: Has dicho antes que capturar el conocimiento empresarial es tan importante como elegir el modelo adecuado. ¿Cómo ves que las organizaciones lo hacen bien?
Maria: Todo comienza por reconocer que los sistemas de IA no son proyectos únicos. Son sistemas vivos. Un enfoque práctico es grabar y transcribir reuniones y tratar ese material como materia prima. Luego, estructuras, resumes y etiquetas esa información para que el sistema pueda recuperarla más tarde. Con el tiempo, estás construyendo una base de conocimientos que refleja cómo piensa realmente el negocio.
Igual de importante es cómo diseñas las evaluaciones. Las primeras versiones de un agente deben ser utilizadas por las partes interesadas del negocio, no solo por los ingenieros. Sus comentarios (qué parece correcto, qué no, por qué algo está mal) se convierten en datos de entrenamiento.
Construir un sistema de evaluación eficaz, personalizado para el propósito específico de ese agente, es fundamental para garantizar resultados de alta calidad, lo que, en última instancia, es crítico para cualquier proyecto de IA en producción. Nuestros propios datos de uso muestran que los clientes que utilizan herramientas de evaluación de IA llevan a producción casi 6 veces más proyectos de IA que los que no las usan.
En la práctica, estás codificando el cerebro del negocio en criterios de evaluación.
Catherine: Eso suena caro y lento. ¿Cómo equilibras el rigor con la velocidad?
Maria: Aquí es donde hablo de la gobernanza mínima viable. No resuelves la gobernanza para toda la empresa el primer día. La resuelves para el dominio y el caso de uso específicos en los que estás trabajando. Te aseguras de que los datos estén controlados, sean trazables y auditables para ese agente. Luego, a medida que el sistema demuestra su valor, lo expandes.
Lo que ayuda es tener bloques de construcción repetibles: patrones que ya codifican buenas prácticas de ingeniería y gobernanza. Esa es la idea detrás de enfoques como Agent Bricks, donde los equipos pueden partir de bases refinadas en lugar de reinventar los flujos de trabajo, las evaluaciones y los controles desde cero cada vez.
Aun así, los ejecutivos deberían insistir desde el principio en algunos puntos no negociables: KPI de negocio claros, un patrocinador ejecutivo designado, evaluaciones creadas con usuarios de negocio y sólidos fundamentos de ingeniería de software. El primer proyecto será difícil, pero sienta las bases para todo lo que sigue y hace que los agentes posteriores sean mucho más rápidos de implementar.
Si te saltas ese paso, terminas con lo que yo llamo “demo wear”: prototipos impresionantes que nunca llegan a ser reales.
Catherine: ¿Puedes compartir ejemplos en los que los agentes hayan cambiado sustancialmente la forma en que se hace el trabajo?
Maria: Internamente en Databricks, hemos visto esto en algunos lugares. En Servicios Profesionales, se usan agentes para analizar los entornos de los clientes durante las migraciones. En lugar de que los ingenieros revisen manualmente cada esquema y sistema, el agente genera flujos de trabajo recomendados basados en las mejores prácticas. Eso reduce drásticamente el tiempo dedicado al análisis repetitivo.
En Field Engineering, los agentes generan automáticamente entornos de demostración adaptados a la industria y al caso de uso del cliente. Lo que antes llevaba horas de preparación manual ahora se hace mucho más rápido y con mayor consistencia.
En ambos casos, el agente no reemplazó la pericia, sino que la amplificó.
Catherine: Si tuvieras que resumir esto para un CIO o un CDO que recién empieza este camino, ¿en qué deberían enfocarse primero?
María: Empiecen por los datos. Los agentes confiables requieren una base de datos unificada, controlable y auditable. Si los datos están fragmentados o son inaccesibles, el agente fallará, sin importar lo bueno que sea el modelo. En segundo lugar, definan claramente las responsabilidades. ¿Quién es responsable de la calidad? ¿Quién es responsable de los resultados? ¿Quién decide cuándo el agente es “suficientemente bueno”? Y, por último, recuerden que la IA agéntica no se trata de demostrar lo inteligente que es el sistema. Se trata de que el sistema ayude a la empresa de forma fiable a tomar mejores decisiones, más rápido y sin introducir nuevos riesgos.
Reflexiones finales
La IA agéntica representa un cambio real: de herramientas que asisten a los humanos a sistemas que actúan en su nombre. Pero como deja claro Maria, el éxito depende mucho menos de la sofisticación del modelo que de la disciplina: en los datos, en la gobernanza y en la ingeniería.
Para los ejecutivos, el desafío no es si los agentes están por llegar. Es si sus organizaciones están listas para construir sistemas en los que se pueda confiar una vez que lleguen.
Para obtener más información sobre cómo crear un modelo operativo eficaz, descarga el modelo de madurez de IA de Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Líder de dados
February 2, 2026/5 min de leitura
Estratégia de dados
February 3, 2026/13 min de leitura


