Conexión de Genie a fuentes de datos federadas para obtener inteligencia en todo su entorno
por John Spencer
*Conectar Genie a los datos mediante Lakehouse Federation, evitando los retrasos de una migración "big bang".
*Aprovechar Unity Catalog como la fuente de verdad tanto para los datos federados como para los gestionados, garantizando que las cargas de trabajo de AI sean seguras y estén listas para producción.
*Comenzar a consultar datos en lenguaje natural de inmediato. Optimizar el rendimiento actualizando a tablas gestionadas de Unity Catalog.
La IA agéntica ha creado una demanda de razonamiento entre múltiples fuentes que no existía hace 12 meses. Los usuarios de negocio quieren hacer preguntas en lenguaje natural como "¿qué campañas de marketing generaron el mayor ROI el trimestre pasado?" y obtener información instantánea de sus datos.
El problema es que los datos empresariales suelen estar dispersos en múltiples sistemas como AWS Glue, Snowflake, Oracle, BigQuery, Postgres y, a veces, bloqueados en formatos propietarios heredados, por lo que migrar todo a un solo sistema podría llevar meses.
¿Qué pasaría si no tuviera que migrar los datos y aun así pudiera analizar todo su patrimonio de datos? Con Lakehouse Federation, Databricks se conecta directamente a sus fuentes existentes, dondequiera que estén, y las reúne bajo una única capa de gobernanza en Unity Catalog. Los permisos, el linaje y los controles de acceso funcionan de manera uniforme en todos los sistemas conectados, por lo que obtiene seguridad de nivel empresarial sin tener que reconstruirla fuente por fuente. Los usuarios de negocio pueden entonces consultar esos datos unificados en inglés sencillo a través de Genie, obteniendo respuestas que abarcan todas las plataformas conectadas sin necesidad de un solo pipeline, copia o paso de migración.
En este blog, explicaremos cómo configurarlo conectándose a una fuente externa, sincronizando sus metadatos en Unity Catalog y haciendo preguntas a través de Genie, todo en cuestión de minutos.
Lakehouse Federation permite a los usuarios y agentes de IA conectarse de forma segura a una fuente externa y gobernarla junto con sus datos nativos. Esto permite a Genie acceder a su patrimonio de datos ampliado sobre la marcha sin necesidad de realizar una migración. Lakehouse Federation se conecta a más de 20 de las plataformas de datos más populares. Como ejemplo, veamos lo fácil que es configurarlo con AWS Glue.

Primero, creamos una conexión con el proyecto externo de AWS Glue. En este ejemplo, nos conectamos a una base de datos de Glue que contiene datos de campañas de marketing.
A continuación, sincronizamos los datos in situ en Unity Catalog. Esto proporciona acceso a todas las tablas sin tener que copiar ningún dato, lo que garantiza que los datos estén siempre actualizados. También evita cualquier interrupción en el sistema de origen.
Los nombres de tablas y columnas sin procesar a menudo no tienen sentido para un agente de IA. Un agente de IA no sabrá de forma inherente que status_code 4 significa "Urgente" o que spend_amount se refiere a los costos de marketing.
Muchas organizaciones ya han invertido en documentar sus esquemas en el sistema de origen, agregando descripciones de tablas, comentarios de columnas y términos del glosario empresarial directamente en Glue. Lakehouse Federation ahora incorpora ese contexto de forma automática. Al crear un catálogo externo, los comentarios y las descripciones del sistema de origen se federan en Unity Catalog junto con los metadatos de la tabla.
Esto significa:
Hoy en día, admitimos comentarios de tablas externas en Glue y BigQuery. En versión preliminar, hemos ampliado la compatibilidad con PostgreSQL, Redshift, MySQL, Snowflake y planeamos agregar más fuentes cada mes (Regístrese para la versión preliminar).
Los comentarios heredados le dicen a Genie qué son sus datos, pero no pueden capturar cómo mide las cosas su empresa. El comentario de una columna puede explicar que spend_amount es el costo de marketing en USD, pero solo la definición de una métrica puede codificar que el ROI son las impresiones divididas por el gasto. Eso es lógica de negocio y, históricamente, ha vivido en fórmulas de paneles dispersas, SQL ad hoc y conocimiento tribal, a menudo con definiciones sutilmente diferentes entre los equipos.
Unity Catalog Semantics le permite definir esa lógica de negocio una sola vez como un objeto gobernado, de modo que cada herramienta que lo consulte obtenga el mismo cálculo de confianza. Y debido a que las tablas federadas son ciudadanos de primera clase en Unity Catalog, esto funciona con datos que nunca salieron de su sistema de origen. Puede definir métricas como el ROI directamente en cualquier fuente federada, sin necesidad de migración.
Con las métricas de Unity Catalog, las define una sola vez, directamente en la tabla federada. La vista de métricas define dos cosas: campos como campaign_id y quarter por los que los usuarios pueden agrupar y filtrar, y una medida, roi, que codifica la propia fórmula de negocio.
Defina el ROI una sola vez, y Genie, los paneles de AI/BI y los notebooks lo calcularán de forma idéntica. Cuando la definición cambia, la actualiza en un solo lugar y cada consumidor hereda el cambio.
Con los datos conectados y contextualizados, su analista de marketing ahora puede abrir una sala de Genie y hacer la pregunta con la que empezamos: "¿Qué campañas de marketing generaron el mayor ROI el trimestre pasado?"
Genie no tiene que reconstruir la fórmula del ROI desde cero sino que se resuelve en la medida certificada roi en la vista de métricas y genera automáticamente el SQL correcto contra los datos federados.

¿El resultado? Una respuesta inmediata y precisa derivada de los datos en tiempo real alojados en Glue.
Genie, con tecnología de Lakehouse Federation, es solo un ejemplo de cómo Unity Catalog permite obtener información de IA en todo su patrimonio de datos. Ya sea que la consulta provenga de un analista de negocio en una sala de Genie o de un flujo de trabajo impulsado por agentes, Unity Catalog proporciona la base gobernada y contextualizada que hace que funcione.
Seguimos invirtiendo para hacer de Lakehouse Federation la vía de acceso más rápida a la plataforma de Databricks:
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.