En la mayoría de las organizaciones, existe una expectativa creciente de que cualquier persona debería poder hacer preguntas sobre sus datos en lenguaje natural y recibir respuestas precisas al instante. Los modelos de lenguaje grandes no están diseñados únicamente para este propósito; no entienden las siglas internas, las métricas personalizadas ni cómo se relacionan las entidades de negocio entre sí. Sin ese contexto, incluso las preguntas sencillas pueden producir resultados engañosos.
La implementación de las mejores prácticas de análisis de autoservicio transforma la forma en que las organizaciones consultan los datos. Databricks AI/BI Genie aborda esta brecha al combinar modelos de lenguaje con datos gobernados y una configuración explícita en la Databricks Platform. Un Genie Space es donde se codifica la lógica, el vocabulario y las reglas de su organización para que las preguntas en lenguaje natural se resuelvan en consultas correctas.
Crear un Genie Space confiable requiere más que solo apuntar la IA a una base de datos. Requiere una preparación cuidadosa en el modelado de datos, los metadatos y la validación continua. Esta guía proporciona un enfoque práctico y paso a paso para realizar ese trabajo de manera escalable.
La calidad de un Genie Space depende en gran medida de la calidad de los datos subyacentes. Cuando los datos ya están curados y son consistentes, el trabajo de Genie se vuelve más simple, rápido y preciso. El objetivo es presentar datos curados en los que un analista humano confiaría sin necesidad de una limpieza adicional.
Las vistas de métricas desempeñan un papel clave en la aplicación de definiciones consistentes en todos los equipos. Le permiten codificar la lógica de negocio compartida, como los cálculos de ingresos o de usuarios activos, en un solo lugar. Genie hereda estas definiciones automáticamente, lo que garantiza que cada consulta se base en la misma lógica aprobada. Esto elimina la ambigüedad y garantiza una única fuente de verdad.
Antes de configurar los metadatos o los ejemplos de SQL, debes definir qué es el éxito. Un Genie Space no solo debe responder preguntas, sino hacerlo de forma correcta, coherente y en el formato esperado. Los benchmarks hacen que esto sea medible.
Al utilizar la herramienta de benchmarking, puedes volver a ejecutar tu conjunto de consultas comunes a través de un proceso automatizado. Esto proporciona un sistema consistente y repetible para evaluar el estado de tu Genie Space en cada etapa, lo que te permite medir el progreso y detectar regresiones rápidamente.
Con una base de datos sólida, ahora debe enseñarle a Genie el contexto y las reglas específicas de su organización. Esto implica tres capas distintas de configuración: enriquecer los metadatos, definir las relaciones y codificar los patrones de SQL.
created_at o status es vago, agregue una descripción para especificar exactamente lo que representa (p. ej., "La marca de tiempo de cuando se realizó el pedido, en UTC").Las instrucciones generales proporcionan un contexto de alto nivel, pero deben usarse con moderación. Son menos precisas que los metadatos o los ejemplos de SQL y nunca deben usarse para compensar la falta de configuración en otra parte.
Antes de agregar una instrucción general, compruebe si el problema se puede resolver mediante descripciones de tablas, metadatos de campos, combinaciones, valores de ejemplo o consultas de ejemplo. Usa instrucciones generales solo cuando no se aplique ninguna de las herramientas específicas.
Las instrucciones eficaces describen la narrativa del negocio en un lenguaje sencillo. Explican las entidades clave, los ciclos de vida y las relaciones sin dictar un comportamiento de SQL específico. Evite las instrucciones que fuercen la selección de tablas, codifiquen filtros de forma rígida o especifiquen el formato de salida.
Utilice la matriz de decisiones que aparece a continuación para diagnosticar problemas comunes. Antes de agregar una instrucción general, verifique que haya abordado la brecha utilizando las herramientas de configuración principales:
| Área de brecha identificada/Problema | Primera característica para revisar y cambiar |
|---|---|
| Genie no está usando la tabla correcta. | Descripciones de las tablas: ¿ha explicado claramente para qué sirve cada tabla y cuándo debe usarse? |
| Genie no está usando el campo correcto para un filtro, una agregación o un cálculo. | Descripciones y sinónimos de los campos: ¿el campo tiene sinónimos claros para los términos de la organización? ¿Está bien descrito su propósito? |
| Genie no puede hacer coincidir la entrada de un usuario con un valor específico en los datos (p. ej., asignar "Australia" a "AUS"). | Valores de ejemplo/Diccionarios de valores: ¿están habilitadas estas características para los campos pertinentes a fin de dar a Genie contexto sobre el contenido de la columna? |
| Genie está creando uniones incorrectas o no puede unir las tablas. | Pestaña Uniones: ¿Ha definido explícitamente la relación y su cardinalidad (p. ej., de uno a varios)? |
| La lógica de la consulta es incorrecta o el formato de salida (columnas seleccionadas, alias) es incorrecto. | Consultas SQL de ejemplo: ¿Ha proporcionado un ejemplo completo y correcto de la consulta de la que Genie puede aprender como plantilla? |
| Un cálculo principal siempre debe realizarse de una manera específica e inmutable. | Funciones de SQL (UDF): ¿ha encapsulado esta lógica en una función para garantizar que se aplique siempre de forma correcta y consistente? |
Esta sección es tu oportunidad para hablarle a Genie en términos amplios y conceptuales.
Las instrucciones generales más eficaces proporcionan una narrativa de alto nivel y legible por humanos de todo el contexto organizacional. Piénsalo como escribir un resumen ejecutivo o un informe de misión para el Genie Space. Aquí es donde explicas el propósito de los datos, defines las entidades clave y describes cómo se relacionan entre sí en un lenguaje sencillo.
Este contexto debería guiar a Genie hacia los patrones de comportamiento correctos sin dictar comandos SQL específicos. Llena los vacíos conceptuales que quedan después de que se hayan utilizado todas las herramientas más específicas.
Aquí tienes un ejemplo comparativo de una instrucción de alto nivel que prepara el escenario para un conjunto de datos de cashback y transacciones:
| Buenas instrucciones generales | Instrucciones generales incorrectas | |
|---|---|---|
Esto cubre el análisis de las transacciones y las recompensas de cash-back otorgadas a los consumidores por realizar compras en los comercios correspondientes.Los clientes reciben un reembolso (cash-back) en su compra por realizar compras con determinados proveedores. Un solo cliente puede realizar varias compras con varios proveedores. Un cliente tiene información demográfica y de cuenta asociada. Un cliente debe ser aceptado en la plataforma para poder recibir un reembolso (cash-back) en sus compras.Un comercio tendrá una industria asociada y una tasa de cash-back base. Un solo comercio puede tener varios clientes, y cada uno puede realizar varias compras.Una transacción tendrá información asociada sobre el progreso de la compra y el procesamiento interno. Una transacción pasará de pendiente a rechazada o aprobada. Cada transacción individual tendrá un único cliente y proveedor asociados. | ** CRITICAL: ALWAYS JOIN LOWER(merchants.id) = LOWER(transactions.merchant_id) **1ACRONYMS:MAU: Monthly active users AU: Activated usersCB: Cash back2If rejected is not specified as a condition, please only use approved. similar for accepted.3Use these fiscal quarter range definitions for dates q1: July–September (E.g., fy-2024 q1 = Jul–Sep 2023) q2: October–December (E.g., fy-2024 q2 = Oct–Dec 2023) q3: January–March (E.g., fy-2024 q3 = Jan–Mar 2024) q4: April–June (E.g., fy-2024 q4 = Apr–Jun 2024)4For cash back percent, this is defined as sum(cash_back) / sum(purchase_amount)5Always exclude merchants.status = ‘deactivated’6 | 1Esta unión debería cubrirse en la sección Uniones, en lugar de en las Instrucciones generales. La condición de unión clave debe corregirse durante el modelado de datos.2Las siglas deben incluirse en las descripciones de los campos y en los sinónimos cuando sean relevantes. Estas tampoco tienen ningún contexto en cuanto a lo que se aplican o representan.3No está claro a qué columnas se aplican estas reglas ni bajo qué condiciones. Sería casi con seguridad mejor si se reelaboraran por completo como métricas o, como mínimo, si se incluyeran en las propias descripciones de las columnas.4En su lugar, estos deberían ser campos diseñados en los datos subyacentes para eliminar cualquier ambigüedad o responsabilidad de las consultas generadas. Serían un caso de uso adecuado para una dimensión en una vista de métricas.5Estos deberían darse como medidas en una vista de métricas. Como mínimo, deberían cubrirse como consultas de ejemplo.6Esta exclusión debería hacerse a nivel de ingeniería de datos, en lugar de ser una condición que se añada siempre a las consultas generadas. |
Las instrucciones ineficaces intentan hacer el trabajo de una herramienta más específica. A menudo son demasiado rígidas, ya que le dicen a Genie exactamente cómo escribir una consulta, lo que puede confundirlo o entrar en conflicto con el contexto que ha aprendido de otras áreas de configuración. Evite las instrucciones que:
Lanzar un Genie Space no es el final del proyecto; es el comienzo de una herramienta de análisis viva y en evolución. Los Genie Spaces más exitosos son aquellos que se supervisan, mantienen y mejoran activamente en colaboración con los usuarios a los que sirven. Este último paso transforma tu Genie Space de una configuración estática a un activo dinámico que se adapta a las necesidades cambiantes de tu organización.
Su mejor fuente de inteligencia para mejorar su Genie Space son sus usuarios expertos. Empodere a un pequeño grupo de SME para que actúen como promotores y bríndeles acceso directo. Anímelos a usar las herramientas de comentarios integradas y a marcar las respuestas como "Buenas" o "Malas".
Esto crea un potente ciclo de retroalimentación continuo. Cuando un experto en la materia trabaja con Genie para refinar una pregunta y llegar a una respuesta correcta, esa interacción es una valiosa oportunidad de aprendizaje. Captura su consulta final “Buena” y la pregunta original, y agrégala a tus consultas de ejemplo. Este proceso de refinamiento iterativo, impulsado por el uso en el mundo real, es la forma más eficaz de mejorar la precisión y relevancia de tu Space con el tiempo.
La pestaña de monitoreo es tu línea de visión directa de cómo los usuarios interactúan con tus datos. Revisar este dashboard con regularidad proporciona información invaluable sobre el comportamiento del usuario y te ayuda a identificar áreas de mejora. Busca lo siguiente:
Estos datos proporcionan una guía clara y basada en evidencia sobre dónde centrar sus esfuerzos, ya sea que eso signifique agregar nuevos metadatos, refinar las uniones, crear consultas de ejemplo más específicas o ajustar las instrucciones generales para satisfacer mejor las necesidades de sus usuarios.
A medida que haces mejoras y tus datos evolucionan, tu conjunto de benchmarks se convierte en tu herramienta principal para el control de calidad y las pruebas de regresión. Cualquier cambio significativo en el Genie Space —como agregar una nueva fuente de datos— debe ir seguido inmediatamente de la ejecución de un benchmark.
Esta es la forma más rápida y fiable de verificar si un cambio ha tenido un impacto positivo o negativo. Si observa una caída en el rendimiento, los resultados del benchmark le indicarán exactamente qué consultas han retrocedido, lo que le permitirá identificar el origen de la nueva ambigüedad y resolverla rápidamente. Este enfoque disciplinado garantiza que, a medida que su Genie Space crece, su calidad y fiabilidad se mantengan consistentemente altas.
Crear un Genie Space de alto rendimiento es producto de un perfeccionamiento continuo, no de una configuración única. No intente mapear todo su patrimonio de datos de una sola vez. En su lugar, seleccione un único caso de uso de alto valor, como un panel de ventas específico o un informe operativo, y aplique esta metodología.
Comienza por diseñar un segmento de datos limpio, luego, establece inmediatamente tus preguntas de benchmark "de oro". Usa los fallos en ese benchmark inicial para guiar la configuración de los metadatos y la lógica de SQL. Al centrarte en este ciclo iterativo —probar, configurar, verificar—, crearás un sistema en el que los usuarios confíen. Este enfoque disciplinado ofrece capacidades de autoservicio inmediatas.
Para comenzar a usar Genie en su espacio de trabajo
https://docs.databricks.com/aws/en/genie/set-up
https://learn.microsoft.com/en-gb/azure/databricks/genie/set-up
https://docs.databricks.com/gcp/en/genie/set-up
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Produto
June 12, 2024/11 min de leitura

