Portare l'Intelligenza Predittiva nella BI Conversazionale con Genie, TabPFN e Agent Bricks
di Ryuta Yoshimatsu , Javier Poveda Panter, Dominik Safaric, Philipp Singer, Diana Kriuchkova, Sauraj Gambhir, Dael Williamson e Bryan Smith
L'intelligence d'affaires a toujours consisté à répondre à des questions. Pour la plupart des organisations, ces questions étaient descriptives — qu'est-il arrivé au dernier trimestre ? — ou diagnostiques — pourquoi le taux d'attrition a-t-il grimpé en flèche dans le Sud-Est ? Databricks Genie a rendu ces questions radicalement plus accessibles, permettant aux utilisateurs professionnels d'obtenir des réponses en langage naturel sans écrire de SQL ni attendre un analyste.
Mais les questions qui motivent les décisions les plus importantes sont prédictives. Quels clients sont susceptibles de résilier leur abonnement au prochain trimestre ? Comment la demande évoluera-t-elle si nous ajustons nos prix ? Quelle est la probabilité qu'un demandeur de prêt fasse défaut ? Y répondre nécessitait historiquement un tout autre ensemble d'outils, de compétences et d'équipes — un scientifique des données explorant les données, validant leur aptitude à la prédiction, créant des caractéristiques, entraînant un modèle et maintenant ce modèle à mesure que les conditions changent. Le résultat : une frontière nette entre le monde de la BI, où les utilisateurs professionnels opèrent avec confiance, et le monde de l'analyse prédictive, où seules des équipes spécialisées peuvent s'aventurer.
Dans un article de blog précédent, nous avons montré comment TabPFN — un modèle de base pour les données tabulaires de Prior Labs — réduit une grande partie de ce flux de travail prédictif en fournissant des prédictions de qualité production en une seule passe avant. Mais un goulot d'étranglement clé subsistait : il fallait toujours quelqu'un pour traduire la question métier en un jeu de données bien formé avant que TabPFN puisse faire une prédiction. Le modèle peut être instantané, mais le travail qui l'alimente ne l'est pas.
C'est là que le rôle de Genie passe de la réponse aux questions à la facilitation des prédictions. Genie comprend déjà les données d'une organisation — ses schémas, ses relations et sa sémantique métier. En combinant Genie avec TabPFN au sein d'un orchestrateur multi-agents, nous créons une boucle fermée : Genie traduit dynamiquement une question en langage naturel en données d'entrée précises dont TabPFN a besoin, et TabPFN transforme ces données en une prédiction en une seule passe avant. Chaque question prédictive posée pendant la conversation a reçu une réponse personnalisée à la volée. L'espace des questions auxquelles vous pouvez répondre devient essentiellement illimité — toute question qui peut être formulée comme « étant donné des données historiques avec un résultat, prédire un résultat pour un nouveau scénario » peut être répondue en quelques secondes.
Le résultat est une expérience unique et gouvernée — ancrée dans les données du Lakehouse avec une lignée complète et un contrôle d'accès via Unity Catalog — où les utilisateurs professionnels posent des questions prédictives dans la même interface conversationnelle qu'ils utilisent pour l'analyse descriptive.
Dans cet article, nous examinons l'architecture de l'application qui rend cela possible, en présentant chaque composant technique et en montrant comment ils s'assemblent pour fournir une intelligence prédictive directement dans le cadre de la BI conversationnelle.
Vidéo 1. Interaction avec un superviseur multi-agents avec Genie et TabPFN via une interface Databricks Apps
Le système est construit comme un orchestrateur multi-agents déployé en tant qu'application Databricks, qui connecte les composants principaux à l'aide de Agent Bricks, une plateforme pour construire et déployer des agents d'entreprise sur Databricks. Genie agit comme un sous-agent pour l'analyse SQL structurée sur des données gouvernées du Lakehouse. TabPFN est connecté à Unity Catalog en tant que serveur MCP externe. Le système prend également en charge des sous-agents et des points de terminaison de service supplémentaires ; d'autres applications Databricks, ou des serveurs MCP supplémentaires, peuvent être ajoutés si nécessaire.
Lorsqu'une question prédictive arrive, l'orchestrateur exécute un flux de travail d'agent. Il interprète l'intention métier de l'utilisateur. Si répondre à la question nécessite une analyse prédictive, il interroge Genie pour extraire les données étiquetées appropriées du Lakehouse. Après avoir collecté toutes les données nécessaires, il appelle TabPFN, en passant ces données au modèle dans le bon format. Enfin, le superviseur interprète les prédictions et fournit une recommandation exploitable à l'utilisateur (Figure 1).

Pour concrétiser, considérons ce qui se passe lorsqu'un responsable des ventes demande : « Quel type de promotion serait le plus susceptible de conclure l'accord Horton-Cross ? »
Dans un flux de travail traditionnel, répondre à cette question nécessite qu'un scientifique des données comprenne la question et identifie les tables et les colonnes pertinentes ; extraie le bon ensemble d'entraînement à partir des transactions historiques incluant les types de promotion et les résultats de gain/perte ; sélectionne un algorithme, ajuste les hyperparamètres et valide les performances ; prépare des données d'inférence spécifiques à l'accord Horton-Cross ; exécute le modèle ; et traduit la sortie en une recommandation commerciale. Chacune de ces étapes prend du temps, de l'expertise et des itérations. Et la question suivante — « Quelle est la date de suivi optimale pour maximiser la probabilité de gain ? » — nécessite un modèle entièrement différent, construit à partir de zéro.
Considérons maintenant ce qui se passe avec Genie et TabPFN sous le même superviseur multi-agents. Le superviseur interprète la question en langage naturel et son intention sémantique, puis traduit cette intention en une demande spécifique pour que Genie génère un jeu de données. Genie reconnaît que répondre à cette question nécessite de joindre les opportunités historiques avec les promotions et les comptes, en utilisant le gain ou la perte comme étiquette, et génère un SQL précis pour extraire ces données instantanément.
TabPFN reçoit ce jeu de données et génère des prédictions en une seule passe avant — aucun prétraitement des caractéristiques, aucune sélection de modèle, aucun réglage des hyperparamètres. Enfin, le superviseur interprète les prédictions et renvoie une recommandation claire et basée sur les données. L'ensemble du pipeline — de la question à la prédiction — s'assemble à partir du langage naturel en un seul tour de conversation.
Le modèle présente des limites : TabPFN n'est aussi bon que les données que Genie produit. Si Genie ne parvient pas à construire un jeu de données significatif avec une colonne d'étiquette claire pour une question donnée, parce que le schéma ne capture pas le bon signal, que les jointures nécessaires n'existent pas, ou que le résultat n'est pas représenté dans les données, alors la prédiction ne sera pas fiable, quelle que soit la capacité de TabPFN. Consultez les meilleures pratiques pour construire un espace Genie efficace ici. De plus, il existe un risque plus large qu'un agent puisse halluciner ou omettre des informations clés lors d'une conversation multi-tours.
C'est précisément pourquoi une évaluation systématique est essentielle. Contrairement à un pipeline ML statique qui doit être validé une fois avant le déploiement, ce système construit dynamiquement un problème ML distinct pour chaque question. Nous avons besoin d'un cadre d'évaluation pour comprendre où se situe la frontière : quelles classes de questions produisent des prédictions fiables, et lesquelles dépassent ce que Genie peut exprimer sous forme d'ensemble d'entraînement bien formé.
L'accélérateur de solution est livré avec un système d'évaluation complet basé sur le cadre d'évaluation GenAI de MLflow. Il s'exécute sur l'agent en direct et enregistre les résultats dans le suivi des expériences MLflow, donnant aux équipes une vue unifiée pour évaluer et surveiller la qualité au fil du temps. Vous pouvez trouver tous les détails ici.
Vidéo 2. Évaluation d'un superviseur multi-agents avec Genie et TabPFN via l'interface Databricks Experiments.
Sans cette boucle d'évaluation, le système peut renvoyer avec confiance des prédictions sans moyen de distinguer les prédictions fiables des prédictions non fiables. Cette approche rigoureuse garantit une couverture à tous les niveaux : elle détecte les régressions conversationnelles et comportementales tout en validant l'exactitude de bout en bout du pipeline prédictif. Ensemble, ces vérifications donnent aux équipes la confiance nécessaire pour déployer ce modèle en production, avec une compréhension claire des classes de questions qui produisent des prédictions fiables et des limites du système.
La combinazione di Genie, TabPFN e Agent Bricks ridefinisce la relazione tra analisi descrittive e predittive. Genie diventa il livello di feature engineering. TabPFN elimina l'overhead di addestramento e manutenzione. Agent Bricks fornisce la spina dorsale di orchestrazione e governance, mentre MLflow valuta e monitora la qualità delle risposte. Il risultato è che gli utenti aziendali possono porre domande predittive nella stessa interfaccia conversazionale che già utilizzano per le analisi descrittive.
L'acceleratore di soluzione completo è disponibile qui. Il repository include la generazione di dati di esempio, la configurazione di Genie Space e l'end-to-end evaluation harness descritto sopra. Il pattern è domain-agnostic: mentre l'acceleratore dimostra l'analisi delle vendite aziendali, la stessa architettura si applica a qualsiasi dominio in cui esistono dati strutturati con risultati, tra cui il punteggio di rischio sanitario, la previsione della qualità manifatturiera, il rilevamento di frodi finanziarie, l'analisi del churn dei clienti e altro ancora.
Inizia oggi stesso e porta l'intelligenza predittiva nelle conversazioni che i tuoi team stanno già avendo.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.