Portare l'intelligenza predittiva nella BI conversazionale con Genie, TabPFN e Agent Bricks
di Ryuta Yoshimatsu , Javier Poveda Panter, Dominik Safaric, Philipp Singer, Diana Kriuchkova, Sauraj Gambhir, Dael Williamson e Bryan Smith
La business intelligence si è sempre basata sul dare risposte a delle domande. Per la maggior parte delle organizzazioni, queste domande sono state di tipo descrittivo — cosa è successo nell'ultimo trimestre? — o diagnostico — perché c'è stato un picco di churn nel Sud-Est? Databricks Genie ha reso queste domande radicalmente più accessibili, consentendo agli utenti aziendali di ottenere risposte in linguaggio naturale senza scrivere SQL o attendere un analista.
Ma le domande che guidano le decisioni più importanti sono di tipo predittivo. Quali clienti hanno maggiori probabilità di fare churn nel prossimo trimestre? Come cambierà la domanda se modifichiamo i prezzi? Qual è la probabilità che questo richiedente un prestito vada in default? Rispondere a queste domande ha storicamente richiesto un set di strumenti, competenze e team completamente diverso: un data scientist che esplora i dati, ne convalida l'idoneità per la previsione, si occupa di feature engineering, addestra un modello e lo mantiene al variare delle condizioni. Il risultato: un netto confine tra il mondo della BI, in cui gli utenti aziendali operano con sicurezza, e il mondo dell'analisi predittiva, in cui solo i team specializzati possono addentrarsi.
In un precedente post del blog, abbiamo mostrato come TabPFN — un foundation model per dati tabulari di Prior Labs — riduca drasticamente gran parte di questo workflow predittivo fornendo previsioni di livello di produzione in un singolo forward pass. Ma rimaneva un collo di bottiglia fondamentale: qualcuno doveva ancora tradurre la domanda aziendale in un dataset ben formato prima che TabPFN potesse formulare una previsione. Il modello può essere istantaneo, ma il lavoro che lo alimenta non lo è.
È qui che il ruolo di Genie passa dal rispondere alle domande all'abilitare le previsioni. Genie comprende già i dati di un'organizzazione: i relativi schemi, relazioni e semantica aziendale. Combinando Genie con TabPFN all'interno di un orchestratore multi-agente, creiamo un loop chiuso: Genie traduce dinamicamente una domanda in linguaggio naturale nei dati di input precisi di cui TabPFN ha bisogno, e TabPFN trasforma tali dati in una previsione in un singolo forward pass. Ogni domanda predittiva posta durante la conversazione riceve una risposta personalizzata al volo. Lo spazio delle domande a cui è possibile rispondere diventa essenzialmente illimitato — qualsiasi domanda che possa essere formulata come "dati i dati storici con un risultato, prevedi un risultato per un nuovo scenario" può trovare risposta in pochi secondi.
Il risultato è un'unica esperienza governata — basata sui dati del Lakehouse con lineage completo e controllo degli accessi tramite Unity Catalog — in cui gli utenti aziendali pongono domande predittive nella stessa interfaccia conversazionale che utilizzano per l'analisi descrittiva.
In questo post, esamineremo l'architettura applicativa che rende possibile tutto ciò, introducendo ciascun componente tecnico e mostrando come si integrano per fornire intelligenza predittiva direttamente all'interno della BI conversazionale.
Video 1. Interazione con un supervisore multi-agente con Genie e TabPFN tramite un'interfaccia di Databricks Apps
Il sistema è strutturato come un orchestratore multi-agente distribuito come Databricks App, che collega i componenti principali utilizzando Agent Bricks, una piattaforma per la creazione e la distribuzione di agenti aziendali su Databricks. Genie funge da sotto-agente per l'analisi SQL strutturata su dati governati del Lakehouse. TabPFN è connesso a Unity Catalog come server MCP esterno. Il sistema supporta anche sotto-agenti e endpoint di serving aggiuntivi; altre applicazioni Databricks, o server MCP aggiuntivi, possono essere aggiunti in base alle esigenze.
Quando arriva una domanda predittiva, l'orchestratore esegue un workflow agentico. Interpreta l'intento aziendale dell'utente. Se la risposta alla domanda richiede un'analisi predittiva, interroga Genie per estrarre i dati etichettati appropriati dal Lakehouse. Dopo aver raccolto tutti i dati necessari, chiama TabPFN, passando questi dati al modello nel formato corretto. Infine, il supervisore interpreta le previsioni e fornisce una raccomandazione pratica all'utente (Figura 1).

Per rendere questo concetto concreto, considera cosa succede quando un responsabile delle vendite chiede: "Quale tipo di promozione avrebbe maggiori probabilità di chiudere la trattativa Horton-Cross?"
In un workflow tradizionale, rispondere a questa domanda richiede che un data scientist comprenda il quesito e identifichi quali tabelle e colonne sono rilevanti; estragga il set di addestramento corretto dalle trattative storiche che includono i tipi di promozione e i risultati di vincita/perdita; selezioni un algoritmo, ottimizzi gli iperparametri e ne convalidi le prestazioni; prepari i dati di inferenza specifici per la trattativa Horton-Cross; esegua il modello; e traduca l'output in una raccomandazione aziendale. Ognuno di questi passaggi richiede tempo, competenza e iterazione. E la domanda successiva — "Qual è la data ottimale per il follow-up per massimizzare la probabilità di vittoria?" — richiede un modello completamente diverso, costruito da zero.
Ora considera cosa succede con Genie e TabPFN sotto lo stesso supervisore multi-agente. Il supervisore interpreta la domanda in linguaggio naturale e il suo intento semantico, quindi traduce tale intento in una richiesta specifica per Genie di generare un dataset. Genie riconosce che rispondere a questa domanda richiede l'unione di opportunità storiche con promozioni e account, utilizzando la vincita o la perdita come etichetta, e genera istantaneamente codice SQL preciso per estrarre questi dati.
TabPFN riceve quel dataset e genera previsioni in un singolo forward pass — senza pre-elaborazione delle feature, senza selezione del modello, senza ottimizzazione degli iperparametri. Infine, il supervisore restituisce una raccomandazione chiara e basata sui dati. L'intera pipeline — dalla domanda alla previsione — si assembla autonomamente a partire dal linguaggio naturale in un singolo turno di conversazione.
Questo pattern presenta delle limitazioni: TabPFN è efficace solo quanto i dati prodotti da Genie. Se Genie non riesce a costruire un dataset significativo con una colonna di etichette chiara per una determinata domanda, perché lo schema non acquisisce il segnale corretto, i join necessari non esistono o il risultato non è rappresentato nei dati, la previsione non sarà affidabile, indipendentemente dalle capacità di TabPFN. Consulta le best practice per la creazione di uno spazio Genie efficace qui. Oltre a questo, esiste anche il rischio più ampio che un agente possa allucinare o omettere informazioni chiave durante una conversazione a più turni.
È proprio per questo che una valutazione sistematica è essenziale. A differenza di una pipeline ML statica che deve essere convalidata una sola volta prima della distribuzione, questo sistema costruisce dinamicamente un problema ML distinto per ogni domanda. Abbiamo bisogno di un framework di valutazione per capire dove si trova il limite: quali classi di domande producono previsioni affidabili e quali superano ciò che Genie può esprimere come un training set ben formato.
L'acceleratore di soluzioni viene fornito con un harness di valutazione completo basato sul framework di valutazione GenAI di MLflow. Viene eseguito sull'agente attivo e registra i risultati in MLflow Experiment Tracking, offrendo ai team un'unica interfaccia per valutare e monitorare la qualità nel tempo. Puoi trovare tutti i dettagli qui.
Video 2. Valutazione di un supervisore multi-agente con Genie e TabPFN tramite l'interfaccia di Databricks Experiments.
Senza questo loop di valutazione, il sistema potrebbe restituire con sicurezza previsioni senza alcun modo per distinguere quelle affidabili da quelle inattendibili. Questo approccio rigoroso garantisce la copertura a ogni livello: rileva le regressioni conversazionali e comportamentali, convalidando al contempo la correttezza end-to-end della pipeline predittiva. Insieme, questi controlli offrono ai team la sicurezza necessaria per distribuire questo pattern in produzione, con una chiara comprensione di quali classi di domande producano previsioni affidabili e dove si trovino i limiti del sistema.
La combinazione di Genie, TabPFN e Agent Bricks ridefinisce la relazione tra analisi descrittiva e predittiva. Genie diventa il livello di feature engineering. TabPFN elimina l'overhead di addestramento e manutenzione. Agent Bricks fornisce la struttura portante di orchestrazione e governance, mentre MLflow valuta e monitora la qualità delle risposte. Il risultato è che gli utenti aziendali possono porre domande predittive nella stessa interfaccia conversazionale che già utilizzano per l'analisi descrittiva.
Il Solution Accelerator completo è disponibile qui. Il repository include la generazione di dati di esempio, la configurazione di Genie Space e il sistema di valutazione end-to-end descritto sopra. Il pattern è indipendente dal dominio: sebbene l'acceleratore mostri l'analisi delle vendite aziendali, la stessa architettura si applica a qualsiasi dominio in cui esistano dati strutturati con risultati, tra cui la valutazione del rischio sanitario, la previsione della qualità di produzione, il rilevamento delle frodi finanziarie, l'analisi del churn dei clienti e altro ancora.
Inizia oggi stesso e porta l'intelligenza predittiva nelle conversazioni che i tuoi team stanno già avendo.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.