Ir para o conteúdo principal
Produto

De "O que aconteceu?" a "O que vai acontecer?"

Levando inteligência preditiva ao BI conversacional com Genie, TabPFN e Agent Bricks

por Ryuta Yoshimatsu , Javier Poveda Panter, Dominik Safaric, Philipp Singer, Diana Kriuchkova, Sauraj Gambhir, Dael Williamson e Bryan Smith

  • Esta arquitetura combina o Genie como uma camada dinâmica de engenharia de atributos com o TabPFN como um modelo de previsão sem treinamento, orquestrado pelo Agent Bricks — entregando respostas preditivas diretamente no BI conversacional.
  • Fim dos gargalos. Os usuários de negócios não precisam mais esperar que as equipes de ciência de dados identifiquem tabelas, extraiam dados de treinamento, selecionem um modelo e interpretem os resultados. O pipeline se monta sozinho a partir de uma pergunta em linguagem natural.
  • O resultado: uma experiência única e governada — apoiada pela linhagem do Unity Catalog e pela avaliação do MLflow — onde qualquer pergunta formulada como "dados os resultados históricos, preveja um novo" é resolvida em segundos, não em dias.

O business intelligence sempre teve como objetivo responder a perguntas. Para a maioria das organizações, essas perguntas eram descritivas — o que aconteceu no último trimestre? — ou diagnósticas — por que o churn aumentou no Sudeste? O Databricks Genie tornou essas perguntas radicalmente mais acessíveis, permitindo que os usuários de negócios obtenham respostas em linguagem natural sem precisar escrever SQL ou esperar por um analista.

Mas as perguntas que impulsionam as decisões mais importantes são preditivas. Quais clientes têm maior probabilidade de sofrer churn no próximo trimestre? Como a demanda mudará se ajustarmos os preços? Qual é a probabilidade de este solicitante de empréstimo ficar inadimplente? Historicamente, responder a essas perguntas exigia um conjunto totalmente diferente de ferramentas, habilidades e equipes — um cientista de dados para explorar os dados, validar sua adequação para previsão, realizar a engenharia de atributos, treinar um modelo e mantê-lo à medida que as condições mudam. O resultado: uma fronteira rígida entre o mundo do BI, onde os usuários de negócios operam com confiança, e o mundo da análise preditiva, onde apenas equipes especializadas conseguem atuar.

Em um post anterior do blog, mostramos como o TabPFN — um modelo de fundação para dados tabulares da Prior Labs — simplifica grande parte desse fluxo de trabalho preditivo ao fornecer previsões prontas para produção em uma única passagem direta (forward pass). Mas ainda restava um gargalo importante: alguém ainda precisava traduzir a pergunta de negócios em um conjunto de dados bem estruturado antes que o TabPFN pudesse fazer uma previsão. O modelo pode ser instantâneo, mas o trabalho que o alimenta não é.

Genie como engenheiro de atributos, TabPFN como modelo universal

É aqui que o papel do Genie muda de responder a perguntas para viabilizar previsões. O Genie já entende os dados de uma organização — seus esquemas, relacionamentos e semântica de negócios. Ao combinar o Genie com o TabPFN em um orquestrador multiagente, criamos um ciclo fechado: o Genie traduz dinamicamente uma pergunta em linguagem natural nos dados de entrada precisos de que o TabPFN precisa, e o TabPFN transforma esses dados em uma previsão em uma única passagem direta. Cada pergunta preditiva feita durante a conversa recebe uma resposta personalizada em tempo real. O espaço de perguntas que você pode responder torna-se essencialmente ilimitado — qualquer pergunta que possa ser formulada como "dados os dados históricos com um resultado, prever um resultado para um novo cenário" pode ser respondida em segundos.

O resultado é uma experiência única e governada — baseada em dados do Lakehouse com linhagem completa e controle de acesso por meio do Unity Catalog — onde os usuários de negócios fazem perguntas preditivas na mesma interface de conversa que usam para análises descritivas.

Neste post, vamos explorar a arquitetura do aplicativo que torna isso possível, apresentando cada componente técnico e mostrando como eles se unem para fornecer inteligência preditiva diretamente no BI conversacional.

Vídeo 1. Interagindo com um supervisor multiagente com Genie e TabPFN por meio de uma interface do Databricks Apps

Arquitetura: um supervisor multiagente

O sistema é construído como um orquestrador multiagente implantado como um Databricks App, que conecta os componentes principais usando o Agent Bricks, uma plataforma para criar e implantar agentes corporativos no Databricks. O Genie atua como um subagent para análises SQL estruturadas sobre dados governados do Lakehouse. O TabPFN está conectado ao Unity Catalog como um servidor MCP externo. O sistema também oferece suporte a subagentes adicionais e endpoints de serviço; outros aplicativos do Databricks ou servidores MCP adicionais podem ser adicionados conforme necessário.

Quando uma pergunta preditiva chega, o orquestrador executa um fluxo de trabalho baseado em agentes. Ele interpreta a intenção de negócios do usuário. Se a resposta à pergunta exigir análise preditiva, ele consulta o Genie para extrair os dados rotulados apropriados do Lakehouse. Depois de reunir todos os dados necessários, ele chama o TabPFN, passando esses dados para o modelo no formato correto. Por fim, o supervisor interpreta as previsões e fornece uma recomendação prática ao usuário (Figura 1).

Arquitetura de supervisor multiagente
Figura 1. Arquitetura de supervisor multiagente combinando Databricks Genie e TabPFN via MCP para permitir análises preditivas e descritivas em tempo real para usuários de negócios

O insight principal em ação

Para tornar isso concreto, considere o que acontece quando um líder de vendas pergunta: "Qual tipo de promoção teria maior probabilidade de fechar o negócio da Horton-Cross?"

Em um fluxo de trabalho tradicional, responder a essa pergunta exige que um cientista de dados entenda a questão e identifique quais tabelas e colunas são importantes; extraia o conjunto de treinamento correto de negócios históricos que incluem tipos de promoção e resultados de ganho/perda; selecione um algoritmo, ajuste os hiperparâmetros e valide o desempenho; prepare os dados de inferência específicos para o negócio da Horton-Cross; execute o modelo; e traduza o resultado em uma recomendação de negócios. Cada uma dessas etapas exige tempo, experiência e iteração. E a próxima pergunta — "Qual é a data ideal para fazer o acompanhamento e maximizar a probabilidade de ganho?" — exige um modelo totalmente diferente, construído do zero.

Agora considere o que acontece com o Genie e o TabPFN sob o mesmo supervisor multiagente. O supervisor interpreta a pergunta em linguagem natural e sua intenção semântica, depois traduz essa intenção em uma solicitação específica para o Genie gerar um conjunto de dados. O Genie reconhece que responder a essa pergunta exige a junção de oportunidades históricas com promoções e contas, usando ganho ou perda como rótulo, e gera o SQL preciso para extrair esses dados instantaneamente.

O TabPFN recebe esse conjunto de dados e gera previsões em uma única passagem direta — sem pré-processamento de atributos, sem seleção de modelo, sem ajuste de hiperparâmetros. Por fim, o supervisor retorna uma recomendação clara e baseada em dados. Todo o pipeline — da pergunta à previsão — se monta sozinho a partir de linguagem natural em uma única interação de conversa.

Avaliação de qualidade e limitações

O padrão tem limitações: o TabPFN é tão bom quanto os dados que o Genie produz. Se o Genie não conseguir construir um conjunto de dados significativo com uma coluna de rótulo clara para uma determinada pergunta, porque o esquema não captura o sinal correto, as junções necessárias não existem ou o resultado não está representado nos dados, a previsão não será confiável, independentemente da capacidade do TabPFN. Consulte as práticas recomendadas para criar um espaço Genie eficaz aqui. Além disso, há também um risco mais amplo de que um agente possa alucinar ou omitir informações importantes durante uma conversa de várias interações.

É exatamente por isso que a avaliação sistemática é essencial. Ao contrário de um pipeline de ML estático que deve ser validado uma vez antes da implantação, este sistema constrói dinamicamente um problema de ML distinto para cada pergunta. Precisamos de uma estrutura de avaliação para entender onde está o limite: quais classes de perguntas produzem previsões confiáveis e quais excedem o que o Genie pode expressar como um conjunto de treinamento bem estruturado.

O acelerador de solução vem com uma estrutura de avaliação abrangente baseada no framework de avaliação de GenAI do MLflow. Ele é executado no agente ativo e registra os resultados no MLflow Experiment Tracking, oferecendo às equipes uma visão unificada para avaliar e monitorar a qualidade ao longo do tempo. Você pode encontrar todos os detalhes aqui.

Vídeo 2. Avaliando um supervisor multiagente com Genie e TabPFN por meio da interface do Databricks Experiments.

Sem esse ciclo de avaliação, o sistema pode retornar previsões com confiança, sem nenhuma maneira de distinguir as confiáveis das não confiáveis. Essa abordagem rigorosa garante cobertura em todos os níveis: ela detecta regressões conversacionais e comportamentais, ao mesmo tempo em que valida a correção de ponta a ponta do pipeline preditivo. Juntas, essas verificações dão às equipes a confiança necessária para implantar esse padrão em produção, com uma compreensão clara de quais classes de perguntas produzem previsões confiáveis e onde estão os limites do sistema.

Comece a usar

A combinação de Genie, TabPFN e Agent Bricks redefine a relação entre análise descritiva e preditiva. O Genie se torna a camada de engenharia de atributos. O TabPFN elimina a sobrecarga de treinamento e manutenção. O Agent Bricks fornece a base de orquestração e governança, enquanto o MLflow avalia e monitora a qualidade das respostas. O resultado é que os usuários de negócios podem fazer perguntas preditivas na mesma interface conversacional que já usam para análise descritiva.

O Solution Accelerator completo está disponível aqui. O repositório inclui geração de dados de exemplo, configuração do Genie Space e a estrutura de avaliação de ponta a ponta descrita acima. O padrão independe de domínio: embora o acelerador demonstre análises de vendas corporativas, a mesma arquitetura se aplica a qualquer domínio que apresente dados estruturados com resultados, incluindo pontuação de risco na saúde, previsão de qualidade na manufatura, detecção de fraudes financeiras, análise de churn de clientes e muito mais.

Comece hoje mesmo e leve a inteligência preditiva para as conversas que suas equipes já estão tendo.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.