Passa al contenuto principale
Prodotto

Da "Cos'è successo?" a "Cosa succederà?"

Portare l'intelligenza predittiva nella BI conversazionale con Genie, TabPFN e Agent Bricks

di Ryuta Yoshimatsu , Javier Poveda Panter, Dominik Safaric, Philipp Singer, Diana Kriuchkova, Sauraj Gambhir, Dael Williamson e Bryan Smith

  • Questa architettura fonde Genie come livello di feature engineering dinamico con TabPFN come modello di previsione zero-training, orchestrato tramite Agent Bricks — offrendo risposte predittive direttamente all'interno della BI conversazionale.
  • Nessun collo di bottiglia. Gli utenti aziendali non devono più attendere che i team di data science identifichino le tabelle, estraggano i dati di addestramento, selezionino un modello e interpretino i risultati. La pipeline si compone autonomamente a partire da una domanda in linguaggio naturale.
  • Il risultato: un'unica esperienza governata — supportata dalla lineage di Unity Catalog e dalla valutazione di MLflow — in cui qualsiasi domanda formulata come "dati i risultati storici, prevedine uno nuovo" si risolve in pochi secondi, anziché in giorni.

La business intelligence si è sempre basata sul dare risposte a delle domande. Per la maggior parte delle organizzazioni, queste domande sono state di tipo descrittivo — cosa è successo nell'ultimo trimestre? — o diagnostico — perché c'è stato un picco di churn nel Sud-Est? Databricks Genie ha reso queste domande radicalmente più accessibili, consentendo agli utenti aziendali di ottenere risposte in linguaggio naturale senza scrivere SQL o attendere un analista.

Ma le domande che guidano le decisioni più importanti sono di tipo predittivo. Quali clienti hanno maggiori probabilità di fare churn nel prossimo trimestre? Come cambierà la domanda se modifichiamo i prezzi? Qual è la probabilità che questo richiedente un prestito vada in default? Rispondere a queste domande ha storicamente richiesto un set di strumenti, competenze e team completamente diverso: un data scientist che esplora i dati, ne convalida l'idoneità per la previsione, si occupa di feature engineering, addestra un modello e lo mantiene al variare delle condizioni. Il risultato: un netto confine tra il mondo della BI, in cui gli utenti aziendali operano con sicurezza, e il mondo dell'analisi predittiva, in cui solo i team specializzati possono addentrarsi.

In un precedente post del blog, abbiamo mostrato come TabPFN — un foundation model per dati tabulari di Prior Labs — riduca drasticamente gran parte di questo workflow predittivo fornendo previsioni di livello di produzione in un singolo forward pass. Ma rimaneva un collo di bottiglia fondamentale: qualcuno doveva ancora tradurre la domanda aziendale in un dataset ben formato prima che TabPFN potesse formulare una previsione. Il modello può essere istantaneo, ma il lavoro che lo alimenta non lo è.

Genie come Feature Engineer, TabPFN come modello universale

È qui che il ruolo di Genie passa dal rispondere alle domande all'abilitare le previsioni. Genie comprende già i dati di un'organizzazione: i relativi schemi, relazioni e semantica aziendale. Combinando Genie con TabPFN all'interno di un orchestratore multi-agente, creiamo un loop chiuso: Genie traduce dinamicamente una domanda in linguaggio naturale nei dati di input precisi di cui TabPFN ha bisogno, e TabPFN trasforma tali dati in una previsione in un singolo forward pass. Ogni domanda predittiva posta durante la conversazione riceve una risposta personalizzata al volo. Lo spazio delle domande a cui è possibile rispondere diventa essenzialmente illimitato — qualsiasi domanda che possa essere formulata come "dati i dati storici con un risultato, prevedi un risultato per un nuovo scenario" può trovare risposta in pochi secondi.

Il risultato è un'unica esperienza governata — basata sui dati del Lakehouse con lineage completo e controllo degli accessi tramite Unity Catalog — in cui gli utenti aziendali pongono domande predittive nella stessa interfaccia conversazionale che utilizzano per l'analisi descrittiva.

In questo post, esamineremo l'architettura applicativa che rende possibile tutto ciò, introducendo ciascun componente tecnico e mostrando come si integrano per fornire intelligenza predittiva direttamente all'interno della BI conversazionale.

Video 1. Interazione con un supervisore multi-agente con Genie e TabPFN tramite un'interfaccia di Databricks Apps

Architettura: un supervisore multi-agente

Il sistema è strutturato come un orchestratore multi-agente distribuito come Databricks App, che collega i componenti principali utilizzando Agent Bricks, una piattaforma per la creazione e la distribuzione di agenti aziendali su Databricks. Genie funge da sotto-agente per l'analisi SQL strutturata su dati governati del Lakehouse. TabPFN è connesso a Unity Catalog come server MCP esterno. Il sistema supporta anche sotto-agenti e endpoint di serving aggiuntivi; altre applicazioni Databricks, o server MCP aggiuntivi, possono essere aggiunti in base alle esigenze.

Quando arriva una domanda predittiva, l'orchestratore esegue un workflow agentico. Interpreta l'intento aziendale dell'utente. Se la risposta alla domanda richiede un'analisi predittiva, interroga Genie per estrarre i dati etichettati appropriati dal Lakehouse. Dopo aver raccolto tutti i dati necessari, chiama TabPFN, passando questi dati al modello nel formato corretto. Infine, il supervisore interpreta le previsioni e fornisce una raccomandazione pratica all'utente (Figura 1).

Architettura del supervisore multi-agente
Figura 1. Architettura del supervisore multi-agente che combina Databricks Genie e TabPFN tramite MCP per abilitare l'analisi predittiva e descrittiva in tempo reale per gli utenti aziendali

L'intuizione fondamentale in azione

Per rendere questo concetto concreto, considera cosa succede quando un responsabile delle vendite chiede: "Quale tipo di promozione avrebbe maggiori probabilità di chiudere la trattativa Horton-Cross?"

In un workflow tradizionale, rispondere a questa domanda richiede che un data scientist comprenda il quesito e identifichi quali tabelle e colonne sono rilevanti; estragga il set di addestramento corretto dalle trattative storiche che includono i tipi di promozione e i risultati di vincita/perdita; selezioni un algoritmo, ottimizzi gli iperparametri e ne convalidi le prestazioni; prepari i dati di inferenza specifici per la trattativa Horton-Cross; esegua il modello; e traduca l'output in una raccomandazione aziendale. Ognuno di questi passaggi richiede tempo, competenza e iterazione. E la domanda successiva — "Qual è la data ottimale per il follow-up per massimizzare la probabilità di vittoria?" — richiede un modello completamente diverso, costruito da zero.

Ora considera cosa succede con Genie e TabPFN sotto lo stesso supervisore multi-agente. Il supervisore interpreta la domanda in linguaggio naturale e il suo intento semantico, quindi traduce tale intento in una richiesta specifica per Genie di generare un dataset. Genie riconosce che rispondere a questa domanda richiede l'unione di opportunità storiche con promozioni e account, utilizzando la vincita o la perdita come etichetta, e genera istantaneamente codice SQL preciso per estrarre questi dati.

TabPFN riceve quel dataset e genera previsioni in un singolo forward pass — senza pre-elaborazione delle feature, senza selezione del modello, senza ottimizzazione degli iperparametri. Infine, il supervisore restituisce una raccomandazione chiara e basata sui dati. L'intera pipeline — dalla domanda alla previsione — si assembla autonomamente a partire dal linguaggio naturale in un singolo turno di conversazione.

Valutazione della qualità e limitazioni

Questo pattern presenta delle limitazioni: TabPFN è efficace solo quanto i dati prodotti da Genie. Se Genie non riesce a costruire un dataset significativo con una colonna di etichette chiara per una determinata domanda, perché lo schema non acquisisce il segnale corretto, i join necessari non esistono o il risultato non è rappresentato nei dati, la previsione non sarà affidabile, indipendentemente dalle capacità di TabPFN. Consulta le best practice per la creazione di uno spazio Genie efficace qui. Oltre a questo, esiste anche il rischio più ampio che un agente possa allucinare o omettere informazioni chiave durante una conversazione a più turni.

È proprio per questo che una valutazione sistematica è essenziale. A differenza di una pipeline ML statica che deve essere convalidata una sola volta prima della distribuzione, questo sistema costruisce dinamicamente un problema ML distinto per ogni domanda. Abbiamo bisogno di un framework di valutazione per capire dove si trova il limite: quali classi di domande producono previsioni affidabili e quali superano ciò che Genie può esprimere come un training set ben formato.

L'acceleratore di soluzioni viene fornito con un harness di valutazione completo basato sul framework di valutazione GenAI di MLflow. Viene eseguito sull'agente attivo e registra i risultati in MLflow Experiment Tracking, offrendo ai team un'unica interfaccia per valutare e monitorare la qualità nel tempo. Puoi trovare tutti i dettagli qui.

Video 2. Valutazione di un supervisore multi-agente con Genie e TabPFN tramite l'interfaccia di Databricks Experiments.

Senza questo loop di valutazione, il sistema potrebbe restituire con sicurezza previsioni senza alcun modo per distinguere quelle affidabili da quelle inattendibili. Questo approccio rigoroso garantisce la copertura a ogni livello: rileva le regressioni conversazionali e comportamentali, convalidando al contempo la correttezza end-to-end della pipeline predittiva. Insieme, questi controlli offrono ai team la sicurezza necessaria per distribuire questo pattern in produzione, con una chiara comprensione di quali classi di domande producano previsioni affidabili e dove si trovino i limiti del sistema.

Per iniziare

La combinazione di Genie, TabPFN e Agent Bricks ridefinisce la relazione tra analisi descrittiva e predittiva. Genie diventa il livello di feature engineering. TabPFN elimina l'overhead di addestramento e manutenzione. Agent Bricks fornisce la struttura portante di orchestrazione e governance, mentre MLflow valuta e monitora la qualità delle risposte. Il risultato è che gli utenti aziendali possono porre domande predittive nella stessa interfaccia conversazionale che già utilizzano per l'analisi descrittiva.

Il Solution Accelerator completo è disponibile qui. Il repository include la generazione di dati di esempio, la configurazione di Genie Space e il sistema di valutazione end-to-end descritto sopra. Il pattern è indipendente dal dominio: sebbene l'acceleratore mostri l'analisi delle vendite aziendali, la stessa architettura si applica a qualsiasi dominio in cui esistano dati strutturati con risultati, tra cui la valutazione del rischio sanitario, la previsione della qualità di produzione, il rilevamento delle frodi finanziarie, l'analisi del churn dei clienti e altro ancora.

Inizia oggi stesso e porta l'intelligenza predittiva nelle conversazioni che i tuoi team stanno già avendo.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.