Passa al contenuto principale

Dai dati al dialogo: una guida alle best practice per la creazione di Genie Space ad alte prestazioni

Best practice per l'analisi self-service - BI basata sull'IA con Genie Spaces

From Data to Dialogue: A Best Practices Guide for Building High-Performing Genie Spaces

Pubblicato: February 5, 2026

Soluzioni13 min di lettura

Summary

  • Crea una base solida: parti da dati curati per migliorare l'accuratezza, le prestazioni e la coerenza su larga scala.
  • Insegna a Genie la tua organizzazione: configura metadati, join e pattern SQL per insegnare a Genie la logica e il linguaggio della tua organizzazione.
  • Testa, perfeziona e mantieni: usa benchmark e cicli di feedback per mantenere la qualità man mano che i dati e l'utilizzo si evolvono.

Nella maggior parte delle organizzazioni, c'è una crescente aspettativa che chiunque possa porre domande ai propri dati in un linguaggio naturale e ricevere risposte accurate all'istante. I modelli linguistici di grandi dimensioni non sono progettati solo per questo scopo; non comprendono gli acronimi interni, le metriche personalizzate o il modo in cui le entità aziendali sono correlate tra loro. Senza quel contesto, anche le domande più semplici possono produrre risultati fuorvianti.

L'implementazione delle best practice di analitiche self-service trasforma il modo in cui le organizzazioni interrogano i dati. Databricks AI/BI Genie colma questa lacuna combinando modelli linguistici con dati governati e una configurazione esplicita sulla Databricks Platform. Un Genie Space è il luogo in cui si codificano la logica, il vocabolario e le regole dell'organizzazione, in modo che le domande in linguaggio naturale si risolvano in query corrette.

Creare un Genie Space affidabile richiede molto più che puntare l'IA su un database. Richiede un'accurata preparazione che riguarda la modellazione dei dati, i metadati e la convalida continua. Questa guida fornisce un approccio pratico e passo-passo per svolgere questo lavoro in modo scalabile.

Passaggio 1: costruire una solida base di dati

La qualità di un Genie Space dipende molto dalla qualità dei dati sottostanti. Quando i dati sono già curati e coerenti, il lavoro di Genie diventa più semplice, veloce e preciso. L'obiettivo è quello di esporre dati curati di cui un analista umano si fiderebbe senza bisogno di ulteriori ripuliture.

  • Denormalizza ed esegui la pre-unione: inizia denormalizzando i modelli di dati dove ha senso. La pre-unione delle tabelle rimuove la complessità dalle query generate e riduce il rischio di unioni o aggregazioni errate.
  • Pre-calcola i campi comuni: è opportuno pre-calcolare i campi di uso comune, come i periodi fiscali o gli indicatori di stato standardizzati, in modo che non vi siano ambiguità sulla loro derivazione.
  • Filtra i dati irrilevanti: se determinate righe o colonne non devono mai essere sottoposte a query, rimuovile durante il processo di ingegneria dei dati. Non fare affidamento su istruzioni o prompt per compensare scelte di modellazione scadenti. Quando una regola si applica universalmente, applicala nei dati stessi.

Le visualizzazioni delle metriche giocano un ruolo fondamentale nell'imporre definizioni coerenti tra i vari team. Ti permettono di codificare la logica aziendale condivisa, come il calcolo dei ricavi o degli utenti attivi, in un unico posto. Genie eredita queste definizioni automaticamente, garantendo che ogni query si basi sulla stessa logica approvata. Questo elimina l'ambiguità e garantisce un'unica fonte di verità.

Passaggio 2: Definire le aspettative con i benchmark

Prima di configurare i metadati o gli esempi SQL, è necessario definire cosa si intende per successo. Un Genie Space non deve solo rispondere alle domande, ma deve farlo in modo corretto, coerente e nel formato previsto. I benchmark rendono questo processo misurabile.

  • Fai l'inventario delle domande chiave: collabora con gli esperti di settore per raccogliere un campione rappresentativo di domande. Queste dovrebbero includere sia ricerche semplici che query analitiche più complesse. Per ogni domanda, definisci la risposta "ground truth" che fungerà da criterio di successo. Ciò consente di verificare che Genie non solo calcoli correttamente i numeri, ma che rispetti anche implicitamente gli standard di formattazione. Ad esempio, quando si verificano i ricavi totali approvati per commerciante, il benchmark dovrebbe garantire che il risultato sia raggruppato correttamente, non solo che la somma totale sia accurata.
  • Specifica l'output desiderato: per ogni domanda, definisci l'output previsto. La risposta deve essere in un formato specifico? I valori devono essere aggregati in un modo particolare? Specificare il formato desiderato assicura che la query venga valutata in modo equo e che Genie impari gli standard di presentazione della tua organizzazione.
  • Stabilisci il tuo punteggio iniziale: esegui i benchmark fin da subito e metti in conto i fallimenti. I fallimenti iniziali sono utili perché evidenziano esattamente dove Genie manca di contesto. Man mano che perfezioni i metadati e la logica, dovresti rieseguire questi benchmark per monitorare i miglioramenti e individuare le regressioni quando si verificano modifiche ai dati o alla configurazione.

Utilizzando lo strumento di benchmarking, puoi eseguire nuovamente il tuo set di query comuni tramite un processo automatizzato. Ciò fornisce un sistema coerente e ripetibile per valutare lo stato del tuo Genie Space in ogni fase, consentendoti di misurare i progressi e individuare rapidamente le regressioni.

Passaggio 3: insegna a Genie la logica della tua organizzazione

Con una solida base di dati, ora devi insegnare a Genie il contesto e le regole specifiche della tua organizzazione. Ciò comporta tre livelli di configurazione distinti: arricchire i metadati, definire le relazioni e codificare i pattern SQL.

  1. Arricchisci metadati e vocabolario: Genie estrae le informazioni di base sullo schema da Unity Catalog, ma è necessario aggiungere il contesto "umano".
    • Descrizioni delle tabelle: considerale come "dichiarazioni d'intenti". Spiega brevemente quali dati contiene la tabella e le specifiche domande di business a cui risponde.
    • Descrizioni delle colonne: chiarisci i campi ambigui. Se il nome di una colonna come created_at o status è vago, aggiungi una descrizione per specificare esattamente cosa rappresenta (ad esempio, "Il timestamp di quando è stato effettuato l'ordine, in UTC").
    • Sinonimi: colma il divario tra il gergo aziendale e i nomi tecnici delle colonne. Usa i sinonimi per mappare gli acronimi (ad es. "ARR") o i termini interni direttamente alle colonne pertinenti.

    • Dizionari di valori: dai a Genie un'occhiata ai tuoi dati effettivi. Abilita Valori di esempio o Dizionari di valori per le colonne categoriche in modo che Genie possa eseguire corrispondenze esatte (ad esempio, mappando "Australia" su "AUS") senza dover indovinare le convenzioni di denominazione.

  2. Definisci relazioni Genie rispetta le chiavi primarie ed esterne definite in Unity Catalog, ma è necessario configurare manualmente eventuali link mancanti nella tab Joins.
    • Definisci la cardinalità: dichiarare esplicitamente se una relazione è uno-a-uno, uno-a-molti o molti-a-molti è fondamentale. Ciò impedisce a Genie di generare query che aumentano a dismisura il numero di righe o che conteggiano due volte le metriche per errore.

  3. Codifica la logica con SQL Mentre i metadati insegnano a Genie cosa sono i tuoi dati, l'SQL fornito gli insegna come interrogarli.
    • Query di esempio: aggiungi query "Gold standard" per le tue domande più comuni o complesse. È qui che dimostri come gestire la logica complessa (calcoli difficili, filtri specifici o aggregazioni a più passaggi riutilizzate) che i metadati da soli non possono spiegare. Dovresti anche integrare i parametri per insegnare a Genie come gestire dinamicamente gli input variabili. Le linee guida per l'utilizzo ti consentono di indicare esplicitamente a Genie quando applicare una query specifica. Questo disambigua metriche simili e assicura che Genie scelga il template giusto per lo scenario corretto. Oltre alla logica, Genie tratta le query di esempio come template di stile, imparando le tue convenzioni di formattazione e codifica preferite.
    • Espressioni SQL: Definisci snippet riutilizzabili specificamente per filtri, dimensioni o misure. Questi agiscono come blocchi modulari per le tue query. In particolare, devi fornire istruzioni su quando utilizzarli (ad esempio, "Applica questo filtro ogni volta che l'utente chiede "Account attivi""), assicurandoti che Genie utilizzi lo strumento in modo corretto anziché tirare a indovinare.

    • Funzioni attendibili (UDF): usa le funzioni definite dall'utente per la logica che deve essere riutilizzata esattamente così com'è, senza alcuna variazione nella formula sottostante (ad es. un calcolo standardizzato delle imposte). Si tratta di funzioni rigide in cui Genie si limita a passare i parametri necessari. Poiché la logica è bloccata, quando Genie esegue queste funzioni, visualizza un badge "Attendibile" sul risultato, indicando all'utente che può avere fiducia nella risposta.

Passaggio 4: applica istruzioni generali

Le istruzioni generali forniscono un contesto di alto livello, ma devono essere usate con parsimonia. Sono meno precise dei metadati o degli esempi SQL e non devono mai essere usate per compensare la mancanza di una configurazione altrove.

Prima di aggiungere un'istruzione generale, verifica se il problema può essere risolto tramite descrizioni delle tabelle, metadati dei campi, join, valori di esempio o query di esempio. Utilizza le istruzioni generali solo quando nessuno degli strumenti specifici è applicabile.

Le istruzioni efficaci descrivono la narrativa aziendale in un linguaggio semplice. Spiegano entità, cicli di vita e relazioni chiave senza imporre un comportamento SQL specifico. Evita le istruzioni che forzano la selezione delle tabelle, impostano filtri hardcoded o specificano la formattazione dell'output.

Usa la matrice decisionale sottostante per diagnosticare i problemi comuni. Prima di aggiungere un'istruzione generale, verifica di aver colmato la lacuna utilizzando gli strumenti di configurazione principali:

Area di gap/problema identificataPrima funzionalità da controllare e modificare
Genie non sta utilizzando la tabella corretta.Descrizioni delle tabelle: hai spiegato chiaramente a cosa serve ogni tabella e quando deve essere utilizzata?
Genie non sta utilizzando il campo giusto per un filtro, un'aggregazione o un calcolo.Descrizioni e sinonimi dei campi: il campo ha sinonimi chiari per i termini dell'organizzazione? Il suo scopo è descritto bene?
Genie non riesce ad abbinare l'input di un utente a un valore specifico nei dati (ad esempio, mappando "Australia" a "AUS").Valori di esempio / Dizionari di valori: queste funzionalità sono abilitate per i campi pertinenti per fornire a Genie il contesto sul contenuto della colonna?
Genie sta creando join errati o non riesce a unire le tabelle.Tab Unioni: Hai definito esplicitamente la relazione e la sua cardinalità (ad esempio, da uno a molti)?
La logica della query non è corretta oppure il formato di output (colonne selezionate, alias) non è corretto.Esempi di query SQL: è stato fornito un esempio completo e corretto della query che Genie può usare come template per l'apprendimento?
Un calcolo di base deve essere sempre eseguito in un modo specifico e immutabile.Funzioni SQL (UDF): hai incapsulato questa logica in una funzione per garantire che sia sempre applicata in modo corretto e coerente?

Questa sezione è la tua opportunità per parlare a Genie in termini ampi e concettuali.

Le buone istruzioni generali forniscono una descrizione

Le istruzioni generali più efficaci forniscono una narrazione di alto livello e leggibile dall'uomo dell'intero contesto organizzativo. Pensalo come la stesura di un executive summary o di un brief di missione per lo Spazio Genie. È qui che spieghi lo scopo dei dati, definisci le entità chiave e descrivi come si relazionano tra loro in un linguaggio semplice.

Questo contesto dovrebbe guidare Genie verso i corretti schemi comportamentali senza imporre comandi SQL specifici. Colma le lacune concettuali che rimangono dopo l'utilizzo di tutti gli strumenti più specifici.

Ecco un esempio comparativo di un'istruzione di alto livello che definisce il contesto per un set di dati di transazioni e cashback:

Buone istruzioni generaliIstruzioni generali errate
Riguarda l'analisi delle transazioni e dei premi di cash-back offerti ai consumatori per gli acquisti effettuati presso gli esercenti pertinenti.

I clienti ricevono un cash-back per gli acquisti effettuati presso determinati fornitori. Un singolo cliente può effettuare più acquisti presso più fornitori. 

A un cliente sono associate le informazioni sull'account e quelle demografiche. Un cliente deve essere accettato sulla piattaforma per ricevere il cash-back sui propri acquisti.

A un esercente saranno associati un settore e un tasso di cash-back di base. Un singolo esercente può avere più clienti, ognuno dei quali effettua più acquisti.

A una transazione saranno associate le informazioni sull'acquisto e sull'avanzamento dell'elaborazione interna. Una transazione passerà da in sospeso a rifiutata o approvata. Ogni singola transazione avrà un unico cliente e fornitore associati.
** CRITICAL: ALWAYS JOIN LOWER(merchants.id) = LOWER(transactions.merchant_id) **1

ACRONYMS:
MAU: Monthly active users 
AU: Activated users
CB: Cash back2

If rejected is not specified as a condition, please only use approved. similar for accepted.3

Usa queste definizioni di intervallo di trimestri fiscali per le date q1: July–September (E.g., fy-2024 q1 = Jul–Sep 2023) q2: October–December (E.g., fy-2024 q2 = Oct–Dec 2023) q3: January–March (E.g., fy-2024 q3 = Jan–Mar 2024) q4: April–June (E.g., fy-2024 q4 = Apr–Jun 2024)4

Per la percentuale di cash back, questa è definita come sum(cash_back) / sum(purchase_amount)5

Always exclude merchants.status = ‘deactivated’6
1Questo join dovrebbe essere trattato nella sezione Join, invece che nelle Istruzioni generali. La condizione di join chiave dovrebbe essere definita durante la modellazione dei dati.

2Gli acronimi dovrebbero essere inclusi nelle descrizioni dei campi e nei sinonimi, ove pertinenti. Questi, inoltre, non hanno alcun contesto che indichi a cosa si applicano o cosa rappresentano.

3Non è chiaro a quali colonne si applichino queste regole, né in quali condizioni. Sarebbe quasi certamente meglio rielaborarle completamente come metriche o, quantomeno, indicarle nelle descrizioni delle colonne stesse.

4Questi dovrebbero invece essere campi ingegnerizzati nei dati sottostanti, per rimuovere qualsiasi ambiguità o responsabilità dalle query generate. Sarebbero un caso d'uso ideale per una dimensione in una vista metrica.

5Queste dovrebbero essere fornite come misure in una vista metrica. Come minimo, dovrebbero essere trattate come query di esempio.

6Questa esclusione dovrebbe essere effettuata a livello di ingegneria dei dati, anziché come una condizione da aggiungere sempre alle query generate.

Istruzioni generali errate

Le istruzioni inefficaci cercano di svolgere il lavoro di uno strumento più specifico. Spesso sono troppo rigide e dicono a Genie esattamente come scrivere una query, il che può confonderlo o entrare in conflitto con il contesto appreso da altre aree di configurazione. Evita le istruzioni che:

  • Imporre quali tabelle o colonne utilizzare. Questo è il compito di Table/Field Descriptions e Synonyms.
    • Invece di: "Quando un utente chiede informazioni sulle vendite, usa la tabella delle transazioni e la colonna dei ricavi."
    • Esegui questa operazione: assicurati che la descrizione della tabella delle transazioni indichi che viene utilizzata per l'analisi delle vendite e che la colonna dei ricavi abbia sinonimi pertinenti.
  • Specificare la formattazione, gli alias o i campi da restituire. Questo è il job di Example SQL Queries.
    • Invece di: "Quando si mostrano i ricavi, rinominare la colonna in 'Ricavi totali' e formattarla come valuta."
    • Procedi in questo modo: fornisci una query di esempio che calcoli e formatti correttamente un output di ricavi.
  • Impostare valori specifici in modo hardcoded. Questa logica appartiene al livello dati o a una specifica Query di esempio.
    • Invece di: "Filtra sempre per le transazioni in cui il paese è 'AUS'."
    • Cosa fare: intervenire al punto giusto. Se si tratta di una regola universale, filtrala nei dati del Gold Layer. Se è una richiesta comune, aggiungi una query di esempio che mostri come filtrare le transazioni australiane.

Passaggio 5: Mantenere la qualità attraverso un feedback continuo

Il lancio di un Genie Space non è la fine del progetto, ma l'inizio di uno strumento di analitiche vivo e in continua evoluzione. I Genie Space di maggior successo sono quelli che vengono monitorati, mantenuti e migliorati attivamente in collaborazione con gli utenti a cui sono destinati. Questo passaggio finale trasforma il tuo Genie Space da una configurazione statica a un asset dinamico che si adatta alle esigenze in evoluzione della tua organizzazione.

Coinvolgi i tuoi esperti in materia come partner

La migliore fonte di informazioni per migliorare il tuo Genie Space sono gli utenti esperti. Incarica un piccolo gruppo di SME di agire come promotori e fornisci loro accesso diretto. Incoraggiali a utilizzare gli strumenti di feedback integrati, contrassegnando le risposte come "Buona" o "Cattiva".

Ciò crea un potente e continuo ciclo di feedback. Quando uno SME collabora con Genie per perfezionare una domanda e arrivare a una risposta corretta, tale interazione è una preziosa opportunità di apprendimento. Acquisisci la loro query finale "buona" e la domanda originale, quindi aggiungile alle query di esempio. Questo processo di perfezionamento iterativo, guidato dall'utilizzo nel mondo reale, è il modo più efficace in assoluto per migliorare l'accuratezza e la pertinenza del tuo Space nel tempo.

Usa la Tab Monitoraggio per comprendere il comportamento degli utenti

La Tab di monitoraggio è la tua linea di vista diretta su come gli utenti interagiscono con i tuoi dati. La revisione regolare di questa dashboard fornisce informazioni dettagliate preziosissime sul comportamento degli utenti e ti aiuta a identificare le aree di miglioramento. Cerca:

  • Domande comuni: Quali sono le query più frequenti? Questo ti aiuta a capire cosa apprezzano di più i tuoi utenti.
  • Punti critici: ci sono argomenti in cui Genie produce costantemente query errate o incoerenti?
  • Utilizzo imprevisto: le persone pongono domande che non avevi previsto?

Questi dati forniscono una guida chiara e basata sull'evidenza su dove concentrare i tuoi sforzi, sia che si tratti di aggiungere nuovi metadati, perfezionare i join, creare query di esempio più mirate o modificare le istruzioni generali per supportare al meglio le esigenze dei tuoi utenti.

Convalida le modifiche con la tua suite di benchmark

Man mano che apporti miglioramenti e i tuoi dati si evolvono, la tua suite di benchmark diventa il tuo strumento principale per la garanzia della qualità e i test di regressione. Qualsiasi modifica significativa a Genie Space, come l'aggiunta di una nuova sorgente di dati, dovrebbe essere immediatamente seguita da un'esecuzione di benchmark.

Questo è il modo più rapido e affidabile per verificare se una modifica ha avuto un impatto positivo o negativo. Se noti un calo delle prestazioni, i risultati del benchmark ti indicheranno esattamente quali query hanno subito una regressione, consentendoti di individuare la fonte della nuova ambiguità e di risolverla rapidamente. Questo approccio disciplinato garantisce che, man mano che il tuo Genie Space cresce, la sua qualità e affidabilità rimangano costantemente elevate.

Dalla configurazione alla collaborazione

La creazione di un Genie Space ad alte prestazioni è il prodotto di un perfezionamento continuo, non di una configurazione una tantum. Non tentare di mappare l'intero patrimonio di dati in una sola volta. Seleziona invece un singolo caso d'uso di alto valore, come una dashboard di vendita specifica o un report operativo, e applica questa metodologia.

Inizia creando una porzione di dati pulita, quindi stabilisci subito le tue domande di benchmark "d'oro". Utilizza gli errori in quel benchmark iniziale per guidare la configurazione dei metadati e della logica SQL. Concentrandoti su questo ciclo iterativo - testa, configura, verifica - costruirai un sistema di cui gli utenti si fidano. Questo approccio disciplinato offre funzionalità self-service immediate.

Per iniziare a usare Genie nel loro spazio di lavoro
https://docs.databricks.com/aws/en/genie/set-up
https://learn.microsoft.com/it-it/azure/databricks/genie/set-up
https://docs.databricks.com/gcp/en/genie/set-up

 

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.

Cosa succederà adesso?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks