Ir para o conteúdo principal

A IA do TabPFN acelera a transformação dos negócios no Databricks

Explore como o TabPFN no Databricks acelera as previsões de ML estruturado, elimina os ciclos de retreinamento e dimensiona a IA nas principais operações de negócios com governança total.

TapPFN AI Accelerates Business Transformation on Databricks

Summary

  • Por que os fluxos de trabalho de ML clássico permanecem complexos e com uso intensivo de recursos — e como o TabPFN muda isso fundamentalmente
  • Como o Databricks permite que as equipes criem, implantem e governem previsões do TabPFN diretamente com os dados do Lakehouse
  • O valor comercial desbloqueado: tempo de previsão mais rápido, despesas gerais de ciência de dados reduzidas e adoção mais ampla de ML nas operações principais

Hoje em dia, é difícil encontrar uma revista de negócios, uma teleconferência de resultados trimestrais, um white paper do setor ou uma apresentação de estratégia sobre transformação de negócios que não seja centrada em Inteligência Artificial (IA). A IA moderna representa uma mudança fundamental na forma como as organizações abordam o consumo, a interpretação e a geração de conteúdo, permitindo que as empresas aumentem e automatizem uma ampla gama de tarefas que antes exigiam profundo conhecimento e anos de conhecimento especializado.

Mas, apesar de toda a atenção que a capacidade da IA de entender e produzir conteúdo não estruturado recebeu, ou seja, textos, imagens, áudio, etc., muitos processos de negócios essenciais há muito tempo dependem do Machine Learning (ML) clássico, uma tecnologia diferente, embora relacionada, que produz rótulos preditivos a partir de entradas de dados estruturados (Figura 1). Até agora, o poder transformador da IA deixou o ML clássico praticamente inalterado.

A persistência dos fluxos de trabalho de ML tradicionais decorre de sua complexidade inerente e da intensidade de trabalho. Cientistas de dados costumam gastar mais de 80% do tempo em atividades que ocorrem antes mesmo do início do treinamento do modelo: preparando e validando entradas de dados estruturados, fazendo engenharia de recursos e selecionando a classe de modelo correta. Além disso, à medida que as distribuições de dados subjacentes mudam e o desempenho do modelo se degrada com o tempo, esse trabalho não é um investimento único, mas um ciclo contínuo de monitoramento, depuração e retreinamento.

Em escala, esse desafio se intensifica. Organizações que implantam centenas, senão milhares, de modelos de ML contam com frameworks de experimentação automatizada para avaliar milhares de combinações de parâmetros. Mas mesmo a automação não consegue superar as restrições de recursos fundamentais.

A realidade é dura: as empresas precisam escolher quais modelos receberão atenção de otimização e quais funcionarão "bem o suficiente", considerando os recursos limitados e a necessidade de apresentar resultados de negócios rapidamente. Mas o surgimento de novos modelos de IA focados em entradas de dados estruturados e saídas preditivas pode finalmente oferecer um caminho a seguir.

Vídeo 1. Interagindo com o modelo TabPFN como parte do acelerador de soluções da Databricks

Apresentando o TabPFN, um modelo de IA para Machine Learning

Um dos desenvolvimentos mais promissores nesta área é o TabPFN, um modelo de base (IA) da Prior Labs que reinventa fundamentalmente o fluxo de trabalho de machine learning (ML) para dados estruturados. Diferentemente das abordagens tradicionais de ML que exigem a criação e o treinamento de um modelo exclusivo para cada tarefa de predição, o TabPFN aplica o mesmo paradigma "pré-treinado e pronto para uso" dos LLMs a dados de negócios tabulares. O modelo foi pré-treinado em mais de 130 milhões de datasets sintéticos, efetivamente "aprendendo a aprender" com dados estruturados em praticamente qualquer domínio ou caso de uso (Figura 1).

Principais processos de negócios por indústria suportados pelo TabPFN
Figure 1. Core business processes by industry supported by TabPFN

Encurtando o cronograma de ML

As implicações para a produtividade de ML são drásticas. Enquanto as abordagens tradicionais exigem que cientistas de dados invistam horas ou dias na preparação de dados, engenharia de recursos, seleção de modelos e ajuste de hiperparâmetros, o TabPFN entrega predições de nível de produção em uma única passagem direta, geralmente medida em segundos.

O modelo lida diretamente com entradas brutas, gerenciando automaticamente valores ausentes, tipos de dados mistos, recursos categóricos e de texto e outliers, sem exigir o pré-processamento extensivo que normalmente consome a maior parte do esforço de ciência de dados. Talvez o mais significativo seja que o TabPFN elimina o fardo da manutenção contínua do retreinamento de modelos: à medida que novos dados se tornam disponíveis, as organizações simplesmente atualizam o contexto do modelo em vez de iniciar um novo ciclo de treinamento.

Desempenho sem concessões

O TabPFN supera a precisão dos métodos tradicionais que exigem horas de ajuste automatizado. Esse perfil de desempenho altera fundamentalmente a economia descrita anteriormente: as organizações não enfrentam mais uma escolha binária entre a precisão do modelo e a alocação de recursos. Em vez disso, elas podem implantar rapidamente recursos preditivos em uma gama mais ampla de casos de uso sem escalar proporcionalmente suas equipes de ciência de dados, democratizando o ML para além das poucas aplicações de maior valor que normalmente justificam esforços de otimização dedicados (Figura 2).

Predições do tipo Classificação e Regressão
Figure 2. TabPFN has been demonstrated to deliver higher accuracy results for both classification and regression-type predictions

Escalando o impacto da IA para a predição estruturada

O TabPFN atualmente suporta datasets de até 100.000 linhas e 2.000 recursos, com versões empresariais que se estendem para até 10 milhões de linhas, cobrindo a grande maioria dos casos de uso de ML operacional nas indústrias de varejo, finanças, saúde, manufatura e outros. Para organizações que buscam operacionalizar a IA além da geração de conteúdo e de tarefas de linguagem natural, os modelos de fundação como o TabPFN representam a peça que faltava, trazendo as mesmas melhorias de produtividade em saltos para os dados estruturados e a análise preditiva que há muito formam a espinha dorsal da tomada de decisão data-driven (Figura 3).

Datasets TabPFN
Figure 3. TabPFN delivers exceedingly better performance on larger datasets than traditional models

O TabPFN já está potencializando muitas aplicações do mundo real para empresas em todo o mundo. Implantações em diversos domínios, desde o gerenciamento de risco financeiro com a Taktile até a avaliação de resultados de saúde com o NHS e a manutenção preditiva com a Hitachi, tiveram um impulso, tanto na eficiência quanto na qualidade dos resultados. O TabPFN supera consistentemente os métodos de ML tradicionais, melhorando o baseline em 10%-65% e acelerando os fluxos de trabalho de ciência de dados em 90%. As organizações estão alcançando aumento de receita, melhores resultados de saúde, economia nos custos de manutenção, prevenção de churn e muito mais.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Usando o TabPFN com o Databricks

O Databricks há muito tempo é a plataforma preferida por cientistas de dados que buscam criar recursos preditivos com Machine Learning (ML). Como uma plataforma aberta, o TabPFN é adequado para uso dentro da plataforma Databricks.

Crie onde os dados residem

A maior parte do ML clássico empresarial começa com dados do Lakehouse: transações, telemetria operacional, eventos de clientes, sinais de inventário e indicadores de risco. Mover esses dados para ambientes externos torna as equipes mais lentas ao criar duplicação, aumentar o risco de segurança e enfraquecer a reprodutibilidade e a auditabilidade. O Databricks permite que os fluxos de trabalho do TabPFN sejam executados diretamente junto aos dados governados, para que as equipes possam minimizar a movimentação de dados enquanto mantêm os controles. Com o Unity Catalog, as organizações centralizam o controle de acesso e a auditoria e preservam a linhagem em todos os ativos de dados e IA, o que é importante quando você precisa provar quais dados foram usados, como os recursos foram derivados e quem teve acesso no momento da decisão.

Operacionalize os resultados com eficiência

O TabPFN é uma abordagem de modelagem. Para criar impacto na produção, ele deve se integrar a padrões empresariais repetíveis, como pontuação em lote e em tempo real, avaliação, governança e monitoramento. O Databricks é uma plataforma robusta para esses fluxos de trabalho, com compute escalável e infraestrutura de inferência em tempo real que pode transformar o TabPFN em um processo operacional confiável. Para avaliação e monitoramento, o MLflow fornece acompanhamento de experimentos e um registro de modelos para gerenciar versões, linhagem e fluxos de trabalho de promoção de forma auditável.

Fornecer governança contínua de modelos

O Databricks oferece monitoramento contínuo do desempenho do modelo TabPFN, detectando quando as previsões começam a apresentar drift dos resultados reais de negócios. Quando são necessários ajustes, a arquitetura do TabPFN elimina o ciclo tradicional de retreinamento de semanas: as equipes simplesmente atualizam o contexto do modelo com dados recentes e o reimplantam em minutos, em vez de dias. Essa combinação de monitoramento automatizado e capacidade de refresh rápido garante que a qualidade da previsão permaneça alinhada com as mudanças nas condições do mercado, enquanto reduz drasticamente os recursos de ciência de dados normalmente necessários para a manutenção contínua do modelo.

Para ajudar as equipes a testar o TabPFN com configuração mínima, publicamos um acelerador de soluções disponível publicamente que mostra como executar o TabPFN de ponta a ponta no Databricks com dados governados do Lakehouse. O acelerador inclui uma série de Notebooks que simulam dados de forma realista de uma variedade de cenários do setor e criam previsões usando o TabPFN (Vídeo 1).

Comece hoje mesmo, trazendo o poder transformador da IA para suas cargas de trabalho de ML e impulsionando a transformação geral dos processos de negócios.

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

12 de junho de 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

How HP is optimizing the 3D Printing supply chain using Delta Sharing

Clientes

2 de janeiro de 2025/7 min de leitura

Como a HP está otimizando a cadeia de suprimentos de impressão 3D usando o Delta Sharing