Revenir au contenu principal

Des données au dialogue : un guide des bonnes pratiques pour créer des Genie Spaces ultraperformants

Meilleures pratiques pour l'analytique en libre-service - BI optimisée par l'IA avec Genie Spaces

From Data to Dialogue: A Best Practices Guide for Building High-Performing Genie Spaces

Publié: February 5, 2026

Solutions16 min de lecture

Summary

  • Bâtissez sur des fondations solides : commencez avec des données organisées pour améliorer la précision, les performances et la cohérence à grande échelle (Monter en charge).
  • Apprenez à Genie votre organisation : configurez les métadonnées, les jointures et les modèles SQL pour apprendre à Genie la logique et le langage de votre organisation.\n
  • Testez, affinez et maintenez : utilisez des benchmarks et des boucles de rétroaction pour maintenir la qualité à mesure que les données et l'utilisation évoluent.

Dans la plupart des organisations, on s'attend de plus en plus à ce que n'importe qui puisse poser des questions sur ses données en langage naturel et recevoir instantanément des réponses précises. Les grands modèles de langage ne sont pas conçus uniquement à cette fin ; ils ne comprennent pas les acronymes internes, les métriques personnalisées ou la manière dont les entités commerciales sont liées les unes aux autres. Sans ce contexte, même les questions simples peuvent donner des résultats trompeurs.

L'implémentation des meilleures pratiques d'analytique en libre-service transforme la façon dont les organisations effectuent des query sur les données. Databricks AI/BI Genie comble cette lacune en combinant des modèles de langage avec des données gouvernées et une configuration explicite sur la Databricks Platform. Un Genie Space est l'endroit où vous encodez la logique, le vocabulaire et les règles de votre organisation afin que les questions en langage naturel se traduisent en queries correctes.

La construction d'un Genie Space fiable ne se résume pas à pointer une IA sur une base de données. Cela nécessite une préparation minutieuse en matière de modélisation des données, de métadonnées et de validation continue. Ce guide propose une approche pratique, étape par étape, pour effectuer ce travail de manière évolutive.

Étape 1 : Concevoir une base de données solide

La qualité d'un Genie Space dépend fortement de la qualité des données sous-jacentes. Lorsque les données sont déjà organisées et cohérentes, le job de Genie devient plus simple, plus rapide et plus précis. L'objectif est d'exposer des données organisées auxquelles un analyste humain ferait confiance sans nettoyage supplémentaire.

  • Dénormalisation et pré-jointure : commencez par dénormaliser vos modèles de données lorsque cela est pertinent. La pré-jointure des tables réduit la complexité des requêtes générées et le risque de jointures ou d'agrégations incorrectes.
  • Pré-calculer les champs communs : Vous devriez pré-calculer les champs couramment utilisés, tels que les exercices fiscaux ou les indicateurs de statut normalisés, afin d'éviter toute ambiguïté sur la manière dont ces valeurs sont dérivées.
  • Filtrer les données non pertinentes : si certaines lignes ou colonnes ne doivent jamais être requêtées, supprimez-les pendant le processus de Data Engineering. Ne vous fiez pas à des instructions ou à des invites pour compenser de mauvais choix de modélisation. Lorsqu'une règle s'applique universellement, appliquez-la directement dans les données.

Les vues de métriques jouent un rôle clé pour garantir la cohérence des définitions entre les équipes. Elles vous permettent d'encoder la logique métier partagée, telle que le calcul du chiffre d'affaires ou des utilisateurs actifs, en un seul endroit. Genie hérite automatiquement de ces définitions, ce qui garantit que chaque query s'appuie sur la même logique approuvée. Cela élimine toute ambiguïté et garantit une source unique de vérité.

Étape 2 : Définir les attentes avec des benchmarks

Avant de configurer des métadonnées ou des exemples SQL, vous devez définir ce qu'est la réussite. Un Espace Genie ne doit pas seulement répondre aux questions, mais y répondre correctement, de manière cohérente et dans le format attendu. Les benchmarks rendent cela mesurable.

  • Faites l'inventaire de vos questions clés : collaborez avec des experts du domaine pour recueillir un échantillon représentatif de questions. Celles-ci doivent inclure à la fois des recherches simples et des queries analytiques plus complexes. Pour chaque question, définissez la réponse de "vérité terrain" qui servira de critère de réussite. Cela vous permet de vérifier que Genie calcule non seulement les chiffres correctement, mais aussi qu'il respecte implicitement vos normes de formatage. Par exemple, lors de la vérification du revenu total approuvé par marchand, la référence doit garantir que le résultat est correctement groupé, et pas seulement que la somme totale est exacte.
  • Spécifiez la sortie souhaitée : Pour chaque question, définissez la sortie attendue. La réponse doit-elle être dans un format spécifique ? Les valeurs doivent-elles être agrégées d'une manière particulière ? Spécifier le format souhaité garantit que la query est évaluée équitablement et que Genie apprend les normes de présentation de votre organisation.
  • Établissez votre score initial : Lancez les benchmarks dès le début et attendez-vous à des échecs. Les échecs initiaux sont utiles car ils mettent en évidence précisément où Genie manque de contexte. À mesure que vous affinez les métadonnées et la logique, vous devriez réexécuter ces benchmarks pour suivre les améliorations et détecter les régressions lorsque des modifications de données ou de configuration se produisent.

En utilisant l'outil de benchmarking, vous pouvez réexécuter votre ensemble de queries courantes via un processus automatisé. Cela fournit un système cohérent et reproductible pour évaluer l'état de votre Genie Space à chaque étape, vous permettant de mesurer les progrès et de repérer rapidement les régressions.

Étape 3 : Enseignez à Genie la logique de votre organisation

Avec une base de données solide, vous devez maintenant enseigner à Genie le contexte et les règles spécifiques de votre organisation. Cela implique trois couches de configuration distinctes : l'enrichissement des métadonnées, la définition des relations et la codification des modèles SQL.

  1. Enrichir les métadonnées et le vocabulaire Genie extrait les informations de base du schéma à partir de Unity Catalog, mais vous devez ajouter le contexte "humain".
    • Descriptions des tables : Considérez-les comme des "déclarations de mission". Expliquez brièvement les données que la table contient et les questions métier spécifiques auxquelles elle répond.
    • Descriptions des colonnes : clarifiez les champs ambigus. Si un nom de colonne comme created_at ou status est vague, ajoutez une description pour spécifier exactement ce qu'il représente (par ex., « L'horodatage de la commande, en UTC »).
    • Synonymes : Faire le lien entre le jargon métier et les noms de colonnes techniques. Utilisez des synonymes pour mapper les acronymes (par ex., "ARR") ou les termes internes directement aux colonnes pertinentes.

    • Dictionnaires de valeurs : donnez à Genie un aperçu de vos données réelles. Activez les valeurs d'exemple ou les dictionnaires de valeurs pour les colonnes catégorielles afin que Genie puisse effectuer des correspondances exactes (par exemple, en mappant "Australia" sur "AUS") sans avoir à deviner les conventions de nommage.

  2. Définir les relations Genie respecte les clés primaires et étrangères définies dans Unity Catalog, mais vous devez configurer manuellement les liens manquants dans l'onglet Jointures.
    • Définir la cardinalité : il est essentiel d'indiquer explicitement si une relation est de type un-à-un, un-à-plusieurs ou plusieurs-à-plusieurs. Cela empêche Genie de générer des requêtes qui font exploser le nombre de lignes ou qui comptent accidentellement les métriques en double.

  3. Codifiez la logique avec SQL Tandis que les métadonnées apprennent à Genie ce que sont vos données, le SQL fourni lui apprend comment les query.
    • Exemples de requêtes : Ajoutez des requêtes "de référence" pour vos questions les plus courantes ou complexes. C'est ici que vous montrez comment gérer une logique complexe (calculs délicats, filtres spécifiques ou agrégations multi-étapes réutilisées) que les métadonnées seules ne peuvent pas expliquer. Vous devriez également intégrer des paramètres pour apprendre à Genie comment gérer dynamiquement les entrées variables. Les directives d'utilisation vous permettent d'indiquer explicitement à Genie quand appliquer une query spécifique. Cela lève l'ambiguïté sur des métriques similaires et garantit que Genie choisit le bon modèle pour le bon scénario. Au-delà de la logique, Genie traite les requêtes d'exemple comme des modèles de style, apprenant ainsi vos conventions de formatage et de codage préférées.
    • Expressions SQL : définissez des extraits réutilisables spécifiquement pour les filtres, les dimensions ou les mesures. Ceux-ci agissent comme des blocs de construction modulaires pour vos queries. Surtout, vous devez fournir des instructions sur quand les utiliser (par ex., "Appliquez ce filtre chaque fois que l'utilisateur demande des 'Comptes actifs'"), en veillant à ce que Genie utilise l'outil correctement plutôt que de simplement deviner.

    • Fonctions de confiance (UDF) : utilisez des fonctions définies par l'utilisateur pour une logique qui doit être réutilisée telle quelle, sans aucune variation dans la formule sous-jacente (par exemple, un calcul de taxe standardisé). Ce sont des fonctions strictes où Genie transmet simplement les paramètres nécessaires. Comme la logique est verrouillée, lorsque Genie exécute ces fonctions, il affiche un badge "De confiance" sur le résultat, indiquant à l'utilisateur qu'il peut avoir confiance dans la réponse.

Étape 4 : Appliquer les instructions générales

Les instructions générales fournissent un contexte de haut niveau, mais elles doivent être utilisées avec parcimonie. Elles sont moins précises que les métadonnées ou les exemples SQL et ne doivent jamais être utilisées pour compenser une configuration manquante ailleurs.

Avant d'ajouter une instruction générale, vérifiez si le problème peut être résolu à l'aide de descriptions de table, de métadonnées de champ, de jointures, de valeurs d'exemple ou de requêtes d'exemple. N'utilisez les instructions générales que si aucun des outils spécifiques ne s'applique.

Les instructions efficaces décrivent le récit commercial en langage simple. Elles expliquent les entités clés, les cycles de vie et les relations sans dicter de comportement SQL spécifique. Évitez les instructions qui forcent la sélection de tables, codent en dur des filtres ou spécifient le formatage de sortie.

Utilisez la matrice de décision ci-dessous pour diagnostiquer les problèmes courants. Avant d'ajouter une instruction générale, vérifiez que vous avez comblé la lacune à l'aide des principaux outils de configuration :

Zone de lacune / Problème identifiéPremière fonctionnalité à vérifier et à modifier
Genie n'utilise pas la bonne table.Descriptions des tables : avez-vous clairement expliqué à quoi sert chaque table et quand elle doit être utilisée ?
Genie n'utilise pas le bon champ pour un filtre, une agrégation ou un calcul.Descriptions et synonymes des champs : Le champ dispose-t-il de synonymes clairs pour les termes de l'organisation ? Son objectif est-il bien décrit ?
Genie ne parvient pas à faire correspondre une entrée utilisateur à une valeur spécifique dans les données (p. ex., mapper "Australia" sur "AUS").Exemples de valeurs / Dictionnaires de valeurs : ces fonctionnalités sont-elles activées pour les champs pertinents afin de donner à Genie un contexte sur le contenu de la colonne ?
Genie crée des jointures incorrectes ou ne parvient pas à joindre les tables.Tab Jointures : avez-vous explicitement défini la relation et sa cardinalité (par ex., un à plusieurs) ?
La logique de la requête est erronée, ou le format de sortie (colonnes sélectionnées, alias) est incorrect.Exemples de requêtes SQL : Avez-vous fourni un exemple complet et correct de la requête dont Genie peut s'inspirer comme modèle ?
Un calcul de base doit toujours être effectué d'une manière spécifique et immuable.Fonctions SQL (UDF) : avez-vous encapsulé cette logique dans une fonction pour garantir qu'elle soit toujours appliquée correctement et de manière cohérente ?

Cette section est l'occasion de parler à Genie en termes généraux et conceptuels.

De bonnes instructions générales fournissent un cadre narratif

Les instructions générales les plus efficaces fournissent un récit global et lisible par l'homme de l'ensemble du contexte organisationnel. Considérez cela comme la rédaction d'un résumé analytique ou d'un briefing de mission pour le Genie Space. C'est ici que vous expliquez l'objectif des données, que vous définissez les entités clés et que vous décrivez leurs relations en langage clair.

Ce contexte devrait guider Genie vers les bons modèles comportementaux sans dicter de commandes SQL spécifiques. Il comble les lacunes conceptuelles qui subsistent après que tous les outils plus spécifiques ont été utilisés.

Voici un exemple comparatif d'une instruction de haut niveau qui présente le contexte d'un dataset sur le cashback et les transactions :

Bonnes instructions généralesMauvaises instructions générales
Ceci couvre l'analyse des transactions et des récompenses de cashback attribuées aux consommateurs pour avoir effectué des achats auprès des marchands concernés.

Les clients reçoivent du cash-back sur leurs achats lorsqu'ils effectuent des achats auprès de fournisseurs donnés. Un seul client peut effectuer plusieurs achats auprès de plusieurs fournisseurs. 

Un client a des informations de compte et démographiques associées. Un client doit être accepté sur la plateforme pour recevoir du cash-back sur ses achats.

Un marchand aura un secteur d'activité et un taux de cash-back de base associés. Un seul marchand peut avoir plusieurs clients, chacun effectuant plusieurs achats.

Une transaction aura des informations associées sur la progression de l'achat et du traitement interne. Une transaction passera de l'état « en attente » à « rejetée » ou « approuvée ». Chaque transaction individuelle aura un seul client et un seul fournisseur associés.
** CRITICAL: ALWAYS JOIN LOWER(merchants.id) = LOWER(transactions.merchant_id) **1

ACRONYMS:
MAU : Monthly active users 
AU : Activated users
CB : Cash back2

Si 'rejected' n'est pas spécifié comme condition, veuillez utiliser uniquement 'approved'. Idem pour 'accepted'.3

Utilisez ces définitions de plage de trimestres fiscaux pour les dates q1 : July–September (E.g., fy-2024 q1 = Jul–Sep 2023) q2: October–December (E.g., fy-2024 q2 = Oct–Dec 2023) q3: January–March (E.g., fy-2024 q3 = Jan–Mar 2024) q4: April–June (E.g., fy-2024 q4 = Apr–Jun 2024)4

Pour le pourcentage de cash back, il est défini comme sum(cash_back) / sum(purchase_amount)5

Always exclude merchants.status = ‘deactivated’6
1Cette jointure devrait être traitée dans la section Jointures, plutôt que dans les instructions générales. La condition de jointure clé devrait être définie lors de la modélisation des données.

2Les acronymes devraient être inclus dans les descriptions de champs et les synonymes lorsqu'ils sont pertinents. Ceux-ci n'ont pas non plus de contexte quant à ce à quoi ils s'appliquent ou ce qu'ils représentent.

3On ne sait pas clairement à quelles colonnes ces règles s'appliquent, ni dans quelles conditions. Il serait presque certainement préférable de les reformuler entièrement en tant que métriques ou, au minimum, de les indiquer dans les descriptions des colonnes elles-mêmes.

4Il devrait plutôt s'agir de champs d'ingénierie dans les données sous-jacentes, afin de supprimer toute ambiguïté ou responsabilité des requêtes générées. Ce serait un cas d'utilisation bien adapté pour une dimension dans une vue de métrique.

5Celles-ci devraient être fournies en tant que mesures dans une vue de métrique. Au minimum, elles devraient être couvertes en tant que requêtes d'exemple.

6Cette exclusion devrait être effectuée au niveau de l'ingénierie des données, plutôt que comme une condition à toujours ajouter aux requêtes générées.

Mauvaises instructions générales

Les instructions inefficaces tentent de faire le job d'un outil plus spécifique. Elles sont souvent trop rigides et indiquent à Genie comment écrire une query, ce qui peut le dérouter ou entrer en conflit avec le contexte qu'il a appris d'autres zones de configuration. Évitez les instructions qui :

  • Indiquer les tables ou les colonnes à utiliser. C'est le rôle des descriptions de table/champ et des synonymes.
    • Au lieu de : "Lorsqu'un utilisateur pose une question sur les ventes, utilisez la table des transactions et la colonne des revenus."
    • Pour ce faire : Assurez-vous que la description de la table des transactions indique qu'elle est utilisée pour l'analyse des ventes et que la colonne des revenus contient des synonymes pertinents.
  • Spécifiez le formatage, les alias ou les champs à renvoyer. C'est le jobdes Exemples de queries SQL.
    • Au lieu de : « Lors de l'affichage du revenu, renommez la colonne en 'Revenu total' et formatez-la en devise. »
    • Faites ceci : Fournissez un exemple de requête qui calcule et formate correctement un revenu en sortie.
  • Codez en dur des valeurs spécifiques. Cette logique appartient à la couche de données ou à un Exemple de queryspécifique.
    • Au lieu de : « Toujours filtrer les transactions dont le pays est 'AUS'. »
    • Action à faire : traitez cela au bon endroit. S'il s'agit d'une règle universelle, filtrez-la dans les données de la Gold Layer. S'il s'agit d'une demande courante, ajoutez un exemple de query montrant comment filtrer les transactions australiennes.

Étape 5 : Maintenir la qualité grâce à des retours continus

Le lancement d'un Genie Space n'est pas la fin du projet ; c'est le début d'un outil analytique vivant et évolutif. Les Genie Spaces les plus performants sont ceux qui sont activement surveillés, maintenus et améliorés en partenariat avec les utilisateurs qu'ils servent. Cette dernière étape transforme votre Genie Space d'une configuration statique en un asset dynamique qui s'adapte aux besoins changeants de votre organisation.

Impliquez vos experts métier en tant que partenaires

Votre meilleure source d'informations pour améliorer votre Genie Space sont vos utilisateurs experts. Responsabilisez un petit groupe de PME pour qu'ils agissent en tant que champions et donnez-leur un accès direct. Encouragez-les à utiliser les outils de feedback intégrés, en marquant les réponses comme "Bon" ou "Mauvais".

Cela crée une boucle de rétroaction puissante et continue. Lorsqu'un SME travaille avec Genie pour affiner une question et parvenir à une réponse correcte, cette interaction est une précieuse opportunité d'apprentissage. Capturez leur finale « bonne » query et la question d'origine, et ajoutez-les à vos Example Queries. Ce processus d'amélioration itérative, guidé par l'utilisation en conditions réelles, est le moyen le plus efficace d'améliorer la précision et la pertinence de votre Espace au fil du temps.

Utilisez l'onglet Tab pour comprendre le comportement des utilisateurs

L'onglet monitoring est votre ligne de vue directe sur la façon dont les utilisateurs interagissent avec vos données. L'examen régulier de ce tableau de bord fournit des insights précieux sur le comportement des utilisateurs et vous aide à identifier les domaines à améliorer. Rechercher :

  • Questions fréquentes : quelles sont les requêtes les plus fréquentes ? Cela vous aide à comprendre ce que vos utilisateurs apprécient le plus.
  • Points de difficulté : Y a-t-il des sujets pour lesquels Genie génère systématiquement des queries incorrectes ou incohérentes ?
  • Utilisation inattendue : les gens posent-ils des questions que vous n'aviez pas anticipées ?

Ces données fournissent un guide clair et fondé sur des preuves pour orienter vos efforts, qu'il s'agisse d'ajouter de nouvelles métadonnées, d'affiner les jointures, de créer des exemples de requêtes plus ciblés ou d'ajuster les instructions générales pour mieux répondre aux besoins de vos utilisateurs.

Validez les modifications avec votre suite de référence

À mesure que vous apportez des améliorations et que vos données évoluent, votre suite de benchmarks devient votre principal outil d'assurance qualité et de test de régression. Toute modification importante apportée au Genie Space — comme l'ajout d'une nouvelle source de données — doit être immédiatement suivie d'une exécution de référence.

C'est le moyen le plus rapide et le plus fiable de vérifier si un changement a eu un impact positif ou négatif. Si vous constatez une baisse de performance, les résultats du benchmark vous indiqueront exactement quelles requêtes ont régressé, ce qui vous permettra d'identifier la source de la nouvelle ambiguïté et de la résoudre rapidement. Cette approche disciplinée garantit qu'au fur et à mesure que votre Genie Space se développe, sa qualité et sa fiabilité restent constamment élevées.

De la configuration à la collaboration

La création d'un Genie Space très performant est le produit d'un perfectionnement continu, et non d'une configuration unique. N'essayez pas de cartographier l'ensemble de votre patrimoine de données en une seule fois. Sélectionnez plutôt un seul cas d'utilisation à forte valeur ajoutée, tel qu'un tableau de bord des ventes spécifique ou un rapport opérationnel, et appliquez cette méthodologie.

Start par concevoir un segment de données propre, puis établissez immédiatement vos questions de référence « idéales ». Utilisez les échecs de ce benchmark initial pour guider votre configuration des métadonnées et de la logique SQL. En vous concentrant sur cette boucle itérative (tester, configurer, vérifier), vous créerez un système auquel les utilisateurs font confiance. Cette approche disciplinée offre des capacités de libre-service immédiates.

Pour commencer à utiliser Genie dans leur workspace
https://docs.databricks.com/aws/en/genie/set-up
https://learn.microsoft.com/en-gb/azure/databricks/genie/set-up
https://docs.databricks.com/gcp/en/genie/set-up

 

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks