Ir al contenido principal

De los datos al diálogo: una guía de mejores prácticas para crear Genie Spaces de alto rendimiento

Mejores prácticas de analítica de autoservicio: BI impulsado por IA con Genie Spaces

From Data to Dialogue: A Best Practices Guide for Building High-Performing Genie Spaces

Publicado: February 5, 2026

Soluciones15 min de lectura

Summary

  • Construye sobre una base sólida: Comienza con datos seleccionados para mejorar la precisión, el rendimiento y la coherencia a escala.
  • Enséñale a Genie sobre tu organización: Configura metadatos, uniones (joins) y patrones de SQL para enseñarle a Genie la lógica y el lenguaje de tu organización.
  • Prueba, perfecciona y mantén: Usa puntos de referencia (benchmarks) y bucles de retroalimentación para mantener la calidad a medida que los datos y el uso evolucionan.

En la mayoría de las organizaciones, existe una expectativa creciente de que cualquier persona debería poder hacer preguntas sobre sus datos en lenguaje natural y recibir respuestas precisas al instante. Los modelos de lenguaje grandes no están diseñados únicamente para este propósito; no entienden las siglas internas, las métricas personalizadas ni cómo se relacionan las entidades de negocio entre sí. Sin ese contexto, incluso las preguntas sencillas pueden producir resultados engañosos.

La implementación de las mejores prácticas de análisis de autoservicio transforma la forma en que las organizaciones consultan los datos. Databricks AI/BI Genie aborda esta brecha al combinar modelos de lenguaje con datos gobernados y una configuración explícita en la Databricks Platform. Un Genie Space es donde se codifica la lógica, el vocabulario y las reglas de su organización para que las preguntas en lenguaje natural se resuelvan en consultas correctas.

Crear un Genie Space confiable requiere más que solo apuntar la IA a una base de datos. Requiere una preparación cuidadosa en el modelado de datos, los metadatos y la validación continua. Esta guía proporciona un enfoque práctico y paso a paso para realizar ese trabajo de manera escalable.

Paso 1: Crea una base de datos sólida

La calidad de un Genie Space depende en gran medida de la calidad de los datos subyacentes. Cuando los datos ya están curados y son consistentes, el trabajo de Genie se vuelve más simple, rápido y preciso. El objetivo es presentar datos curados en los que un analista humano confiaría sin necesidad de una limpieza adicional.

  • Desnormalizar y preunir: comience por desnormalizar sus modelos de datos donde tenga sentido. La preunión de tablas elimina la complejidad de las consultas generadas y reduce el riesgo de uniones o agregaciones incorrectas.
  • Precalcular campos comunes: Debes precalcular los campos de uso común, como los períodos fiscales o los indicadores de estado estandarizados, para que no haya ambigüedad en la forma en que se derivan esos valores.
  • Filtra los datos irrelevantes: si ciertas filas o columnas nunca se deben consultar, elimínalas durante el proceso de ingeniería de datos. No confíes en las instrucciones o indicaciones para compensar las malas decisiones de modelado. Cuando una regla se aplica de forma universal, aplícala en los datos mismos.

Las vistas de métricas desempeñan un papel clave en la aplicación de definiciones consistentes en todos los equipos. Le permiten codificar la lógica de negocio compartida, como los cálculos de ingresos o de usuarios activos, en un solo lugar. Genie hereda estas definiciones automáticamente, lo que garantiza que cada consulta se base en la misma lógica aprobada. Esto elimina la ambigüedad y garantiza una única fuente de verdad.

Paso 2: Define las expectativas con benchmarks

Antes de configurar los metadatos o los ejemplos de SQL, debes definir qué es el éxito. Un Genie Space no solo debe responder preguntas, sino hacerlo de forma correcta, coherente y en el formato esperado. Los benchmarks hacen que esto sea medible.

  • Haga un inventario de sus preguntas clave: colabore con expertos en la materia para reunir una muestra representativa de preguntas. Estas deben incluir tanto búsquedas simples como consultas analíticas más complejas. Para cada pregunta, defina la respuesta de "verdad fundamental" para que sirva como su criterio de éxito. Esto le permite verificar que Genie no solo calcula los números correctamente, sino que también respeta implícitamente sus estándares de formato. Por ejemplo, al verificar los ingresos totales aprobados por comerciante, el punto de referencia debe garantizar que el resultado esté agrupado correctamente, no solo que la suma total sea precisa.
  • Especifica el resultado deseado: Para cada pregunta, define el resultado esperado. ¿La respuesta necesita estar en un formato específico? ¿Los valores se deben agregar de una manera particular? Especificar el formato deseado garantiza que la consulta se evalúe de manera justa y que Genie aprenda los estándares de presentación de tu organización.
  • Establece tu puntuación inicial: Ejecuta los benchmarks con anticipación y prepárate para las fallas. Los errores iniciales son útiles porque destacan exactamente dónde a Genie le falta contexto. A medida que perfecciona los metadatos y la lógica, debe volver a ejecutar estos benchmarks para hacer un seguimiento de las mejoras y detectar regresiones cuando se produzcan cambios en los datos o en la configuración.

Al utilizar la herramienta de benchmarking, puedes volver a ejecutar tu conjunto de consultas comunes a través de un proceso automatizado. Esto proporciona un sistema consistente y repetible para evaluar el estado de tu Genie Space en cada etapa, lo que te permite medir el progreso y detectar regresiones rápidamente.

Paso 3: Enséñele a Genie la lógica de su organización

Con una base de datos sólida, ahora debe enseñarle a Genie el contexto y las reglas específicas de su organización. Esto implica tres capas distintas de configuración: enriquecer los metadatos, definir las relaciones y codificar los patrones de SQL.

  1. Enriquecer los metadatos y el vocabulario Genie extrae información básica del esquema de Unity Catalog, pero usted necesita agregar el contexto "humano".
    • Descripciones de tablas: Trátalas como "declaraciones de misión". Explica brevemente qué datos contiene la tabla y las preguntas de negocio específicas que responde.
    • Descripciones de las columnas: Aclare los campos ambiguos. Si un nombre de columna como created_at o status es vago, agregue una descripción para especificar exactamente lo que representa (p. ej., "La marca de tiempo de cuando se realizó el pedido, en UTC").
    • Sinónimos: Cierra la brecha entre la jerga de negocios y los nombres técnicos de las columnas. Usa sinónimos para asignar acrónimos (p. ej., “ARR”) o términos internos directamente a las columnas relevantes.

    • Diccionarios de valores: Permita que Genie eche un vistazo a sus datos reales. Habilite Valores de ejemplo o Diccionarios de valores para las columnas categóricas a fin de que Genie pueda realizar coincidencias exactas (p. ej., asignar "Australia" a "AUS") sin tener que adivinar las convenciones de nomenclatura.

  2. Definir relaciones Genie respeta las claves primarias y externas definidas en Unity Catalog, pero debe configurar manualmente cualquier enlace que falte en la pestaña Uniones.
    • Definir cardinalidad: Es fundamental indicar explícitamente si una relación es uno a uno, uno a muchos o muchos a muchos. Esto evita que Genie genere consultas que disparen el número de filas o que cuenten las métricas por duplicado accidentalmente.

  3. Codificar la lógica con SQL Mientras que los metadatos le enseñan a Genie qué son sus datos, el SQL proporcionado le enseña cómo consultarlos.
    • Consultas de ejemplo: Agrega consultas de “referencia” (gold standard) para tus preguntas más comunes o complejas. Aquí es donde demuestras cómo manejar la lógica compleja (cálculos complicados, filtros específicos o agregaciones de varios pasos reutilizadas) que los metadatos por sí solos no pueden explicar. También debes incorporar parámetros para enseñarle a Genie a manejar entradas de variables de forma dinámica. Las pautas de uso le permiten indicarle explícitamente a Genie cuándo aplicar una consulta específica. Esto desambigua métricas similares y garantiza que Genie elija la plantilla adecuada para el escenario correcto. Más allá de la lógica, Genie trata las consultas de ejemplo como plantillas de estilo y aprende tus convenciones de formato y codificación preferidas.
    • Expresiones SQL: Defina fragmentos reutilizables específicamente para filtros, dimensiones o medidas. Estos funcionan como bloques de construcción modulares para tus consultas. Es fundamental que proporcione instrucciones sobre cuándo usarlos (p. ej., "Aplique este filtro siempre que el usuario pida 'Cuentas activas'"), asegurándose de que Genie utilice la herramienta correctamente en lugar de simplemente adivinar.

    • Funciones de confianza (UDF): use las funciones definidas por el usuario para la lógica que debe reutilizarse exactamente tal cual, sin ninguna variación en la fórmula subyacente (p. ej., un cálculo de impuestos estandarizado). Son funciones estrictas en las que Genie simplemente pasa los parámetros necesarios. Como la lógica está bloqueada, cuando Genie ejecuta estas funciones, muestra una insignia de "De confianza" en el resultado, lo que indica al usuario que puede confiar en la respuesta.

Paso 4: Aplicar instrucciones generales

Las instrucciones generales proporcionan un contexto de alto nivel, pero deben usarse con moderación. Son menos precisas que los metadatos o los ejemplos de SQL y nunca deben usarse para compensar la falta de configuración en otra parte.

Antes de agregar una instrucción general, compruebe si el problema se puede resolver mediante descripciones de tablas, metadatos de campos, combinaciones, valores de ejemplo o consultas de ejemplo. Usa instrucciones generales solo cuando no se aplique ninguna de las herramientas específicas.

Las instrucciones eficaces describen la narrativa del negocio en un lenguaje sencillo. Explican las entidades clave, los ciclos de vida y las relaciones sin dictar un comportamiento de SQL específico. Evite las instrucciones que fuercen la selección de tablas, codifiquen filtros de forma rígida o especifiquen el formato de salida.

Utilice la matriz de decisiones que aparece a continuación para diagnosticar problemas comunes. Antes de agregar una instrucción general, verifique que haya abordado la brecha utilizando las herramientas de configuración principales:

Área de brecha identificada/ProblemaPrimera característica para revisar y cambiar
Genie no está usando la tabla correcta.Descripciones de las tablas: ¿ha explicado claramente para qué sirve cada tabla y cuándo debe usarse?
Genie no está usando el campo correcto para un filtro, una agregación o un cálculo.Descripciones y sinónimos de los campos: ¿el campo tiene sinónimos claros para los términos de la organización? ¿Está bien descrito su propósito?
Genie no puede hacer coincidir la entrada de un usuario con un valor específico en los datos (p. ej., asignar "Australia" a "AUS").Valores de ejemplo/Diccionarios de valores: ¿están habilitadas estas características para los campos pertinentes a fin de dar a Genie contexto sobre el contenido de la columna?
Genie está creando uniones incorrectas o no puede unir las tablas.Pestaña Uniones: ¿Ha definido explícitamente la relación y su cardinalidad (p. ej., de uno a varios)?
La lógica de la consulta es incorrecta o el formato de salida (columnas seleccionadas, alias) es incorrecto.Consultas SQL de ejemplo: ¿Ha proporcionado un ejemplo completo y correcto de la consulta de la que Genie puede aprender como plantilla?
Un cálculo principal siempre debe realizarse de una manera específica e inmutable.Funciones de SQL (UDF): ¿ha encapsulado esta lógica en una función para garantizar que se aplique siempre de forma correcta y consistente?

Esta sección es tu oportunidad para hablarle a Genie en términos amplios y conceptuales.

Las buenas instrucciones generales proporcionan una narrativa

Las instrucciones generales más eficaces proporcionan una narrativa de alto nivel y legible por humanos de todo el contexto organizacional. Piénsalo como escribir un resumen ejecutivo o un informe de misión para el Genie Space. Aquí es donde explicas el propósito de los datos, defines las entidades clave y describes cómo se relacionan entre sí en un lenguaje sencillo.

Este contexto debería guiar a Genie hacia los patrones de comportamiento correctos sin dictar comandos SQL específicos. Llena los vacíos conceptuales que quedan después de que se hayan utilizado todas las herramientas más específicas.

Aquí tienes un ejemplo comparativo de una instrucción de alto nivel que prepara el escenario para un conjunto de datos de cashback y transacciones:

Buenas instrucciones generalesInstrucciones generales incorrectas
Esto cubre el análisis de las transacciones y las recompensas de cash-back otorgadas a los consumidores por realizar compras en los comercios correspondientes.

Los clientes reciben un reembolso (cash-back) en su compra por realizar compras con determinados proveedores. Un solo cliente puede realizar varias compras con varios proveedores. 

Un cliente tiene información demográfica y de cuenta asociada. Un cliente debe ser aceptado en la plataforma para poder recibir un reembolso (cash-back) en sus compras.

Un comercio tendrá una industria asociada y una tasa de cash-back base. Un solo comercio puede tener varios clientes, y cada uno puede realizar varias compras.

Una transacción tendrá información asociada sobre el progreso de la compra y el procesamiento interno. Una transacción pasará de pendiente a rechazada o aprobada. Cada transacción individual tendrá un único cliente y proveedor asociados.
** CRITICAL: ALWAYS JOIN LOWER(merchants.id) = LOWER(transactions.merchant_id) **1

ACRONYMS:
MAU: Monthly active users 
AU: Activated users
CB: Cash back2

If rejected is not specified as a condition, please only use approved. similar for accepted.3

Use these fiscal quarter range definitions for dates q1: July–September (E.g., fy-2024 q1 = Jul–Sep 2023) q2: October–December (E.g., fy-2024 q2 = Oct–Dec 2023) q3: January–March (E.g., fy-2024 q3 = Jan–Mar 2024) q4: April–June (E.g., fy-2024 q4 = Apr–Jun 2024)4

For cash back percent, this is defined as sum(cash_back) / sum(purchase_amount)5

Always exclude merchants.status = ‘deactivated’6
1Esta unión debería cubrirse en la sección Uniones, en lugar de en las Instrucciones generales. La condición de unión clave debe corregirse durante el modelado de datos.

2Las siglas deben incluirse en las descripciones de los campos y en los sinónimos cuando sean relevantes. Estas tampoco tienen ningún contexto en cuanto a lo que se aplican o representan.

3No está claro a qué columnas se aplican estas reglas ni bajo qué condiciones. Sería casi con seguridad mejor si se reelaboraran por completo como métricas o, como mínimo, si se incluyeran en las propias descripciones de las columnas.

4En su lugar, estos deberían ser campos diseñados en los datos subyacentes para eliminar cualquier ambigüedad o responsabilidad de las consultas generadas. Serían un caso de uso adecuado para una dimensión en una vista de métricas.

5Estos deberían darse como medidas en una vista de métricas. Como mínimo, deberían cubrirse como consultas de ejemplo.

6Esta exclusión debería hacerse a nivel de ingeniería de datos, en lugar de ser una condición que se añada siempre a las consultas generadas.

Instrucciones generales incorrectas

Las instrucciones ineficaces intentan hacer el trabajo de una herramienta más específica. A menudo son demasiado rígidas, ya que le dicen a Genie exactamente cómo escribir una consulta, lo que puede confundirlo o entrar en conflicto con el contexto que ha aprendido de otras áreas de configuración. Evite las instrucciones que:

  • Indique qué tablas o columnas usar. Esta es la función de las descripciones de tablas/campos y los sinónimos.
    • En lugar de: "Cuando un usuario pregunte sobre las ventas, usa la tabla de transacciones y la columna de ingresos".
    • Haz esto: Asegúrate de que la descripción de la tabla de transacciones indique que se utiliza para el análisis de ventas y que la columna de ingresos tenga sinónimos relevantes.
  • Especifique el formato, los alias o los campos que se devolverán. Esta es la función de las consultas SQL de ejemplo.
    • En lugar de: "Al mostrar los ingresos, cambie el nombre de la columna a 'Ingresos totales' y dele formato de moneda."
    • Haz lo siguiente: proporciona una consulta de ejemplo que calcule y formatee correctamente un resultado de ingresos.
  • Codificar valores específicos. Esta lógica pertenece a la capa de datos o a una Consulta de ejemploespecífica.
    • En lugar de: "Filtrar siempre las transacciones donde el país es 'AUS'."
    • Haz esto: Gestiónalo en el lugar correcto. Si esta es una regla universal, fíltrala en los datos de la capa Gold. Si es una solicitud común, agrega una consulta de ejemplo que muestre cómo filtrar las transacciones australianas.

Paso 5: Mantener la calidad mediante la retroalimentación continua

Lanzar un Genie Space no es el final del proyecto; es el comienzo de una herramienta de análisis viva y en evolución. Los Genie Spaces más exitosos son aquellos que se supervisan, mantienen y mejoran activamente en colaboración con los usuarios a los que sirven. Este último paso transforma tu Genie Space de una configuración estática a un activo dinámico que se adapta a las necesidades cambiantes de tu organización.

Involucra a tus expertos en la materia como socios

Su mejor fuente de inteligencia para mejorar su Genie Space son sus usuarios expertos. Empodere a un pequeño grupo de SME para que actúen como promotores y bríndeles acceso directo. Anímelos a usar las herramientas de comentarios integradas y a marcar las respuestas como "Buenas" o "Malas".

Esto crea un potente ciclo de retroalimentación continuo. Cuando un experto en la materia trabaja con Genie para refinar una pregunta y llegar a una respuesta correcta, esa interacción es una valiosa oportunidad de aprendizaje. Captura su consulta final “Buena” y la pregunta original, y agrégala a tus consultas de ejemplo. Este proceso de refinamiento iterativo, impulsado por el uso en el mundo real, es la forma más eficaz de mejorar la precisión y relevancia de tu Space con el tiempo.

Usa la pestaña de monitoreo para entender el comportamiento del usuario

La pestaña de monitoreo es tu línea de visión directa de cómo los usuarios interactúan con tus datos. Revisar este dashboard con regularidad proporciona información invaluable sobre el comportamiento del usuario y te ayuda a identificar áreas de mejora. Busca lo siguiente:

  • Preguntas comunes: ¿Cuáles son las consultas más frecuentes? Esto te ayuda a entender qué es lo que más valoran tus usuarios.
  • Puntos problemáticos: ¿Hay temas en los que Genie produce de manera consistente consultas incorrectas o incoherentes?
  • Uso inesperado: ¿La gente hace preguntas que no anticipó?

Estos datos proporcionan una guía clara y basada en evidencia sobre dónde centrar sus esfuerzos, ya sea que eso signifique agregar nuevos metadatos, refinar las uniones, crear consultas de ejemplo más específicas o ajustar las instrucciones generales para satisfacer mejor las necesidades de sus usuarios.

Valide los cambios con su conjunto de benchmarks

A medida que haces mejoras y tus datos evolucionan, tu conjunto de benchmarks se convierte en tu herramienta principal para el control de calidad y las pruebas de regresión. Cualquier cambio significativo en el Genie Space —como agregar una nueva fuente de datos— debe ir seguido inmediatamente de la ejecución de un benchmark.

Esta es la forma más rápida y fiable de verificar si un cambio ha tenido un impacto positivo o negativo. Si observa una caída en el rendimiento, los resultados del benchmark le indicarán exactamente qué consultas han retrocedido, lo que le permitirá identificar el origen de la nueva ambigüedad y resolverla rápidamente. Este enfoque disciplinado garantiza que, a medida que su Genie Space crece, su calidad y fiabilidad se mantengan consistentemente altas.

De la configuración a la colaboración

Crear un Genie Space de alto rendimiento es producto de un perfeccionamiento continuo, no de una configuración única. No intente mapear todo su patrimonio de datos de una sola vez. En su lugar, seleccione un único caso de uso de alto valor, como un panel de ventas específico o un informe operativo, y aplique esta metodología.

Comienza por diseñar un segmento de datos limpio, luego, establece inmediatamente tus preguntas de benchmark "de oro". Usa los fallos en ese benchmark inicial para guiar la configuración de los metadatos y la lógica de SQL. Al centrarte en este ciclo iterativo —probar, configurar, verificar—, crearás un sistema en el que los usuarios confíen. Este enfoque disciplinado ofrece capacidades de autoservicio inmediatas.

Para comenzar a usar Genie en su espacio de trabajo
https://docs.databricks.com/aws/en/genie/set-up
https://learn.microsoft.com/en-gb/azure/databricks/genie/set-up
https://docs.databricks.com/gcp/en/genie/set-up

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks