26 de julho de 2024

Um Framework para Previsão Multimodelo no Databricks

por Ryuta Yoshimatsu , Puneet Jain, Tristan Nixon, Sathish Gangichetty, Michael Shtelma e Bryan Smith

Introdução

A previsão de séries temporais é a base para o gerenciamento de estoque e demanda na maioria das empresas. Usando dados de períodos passados junto com condições antecipadas, as empresas podem prever receitas e unidades vendidas, permitindo-lhes alocar recursos para atender à demanda esperada. Dada a natureza fundamental desse trabalho, as empresas estão constantemente explorando maneiras de melhorar a precisão das previsões, permitindo-lhes colocar os recursos certos no lugar certo na hora certa, minimizando os compromissos de capital.

O desafio para a maioria das organizações é a ampla gama de técnicas de previsão à sua disposição. Técnicas estatísticas clássicas, modelos aditivos generalizados, abordagens baseadas em machine learning e deep learning e, agora, transformers generativos de IA pré-treinados oferecem às organizações um número avassalador de opções, algumas das quais funcionam melhor em alguns cenários do que em outros.

Embora a maioria dos criadores de modelos reivindique melhoria na precisão da previsão em relação a conjuntos de dados de linha de base, a realidade é que o conhecimento do domínio e os requisitos de negócios geralmente reduzem o número de escolhas de modelos a poucas e, em seguida, apenas a aplicação prática e a avaliação em relação aos conjuntos de dados de uma organização podem determinar qual tem o melhor desempenho. E o que é "melhor" muitas vezes varia de unidade de previsão para unidade de previsão e até mesmo ao longo do tempo, forçando as organizações a realizar avaliações comparativas contínuas entre as técnicas para determinar o que funciona melhor no momento.

Neste blog, apresentaremos o framework Many Model Forecasting (MMF) para a avaliação comparativa de modelos de previsão. O MMF permite que os usuários treinem e prevejam usando múltiplos modelos de previsão em escala, em centenas de milhares a milhões de séries temporais em sua granularidade mais fina. Com suporte para preparação de dados, backtesting, validação cruzada, pontuação e implantação, o framework permite que as equipes de previsão implementem uma solução completa de geração de previsões usando modelos clássicos e de ponta, com ênfase na configuração em vez de codificação, minimizando o esforço necessário para introduzir novos modelos e capacidades em seus processos. Descobrimos em inúmeras implementações de clientes que este framework:

Reduz o tempo de lançamento no mercado: Com muitos modelos bem estabelecidos e de ponta já integrados, os usuários podem avaliar e implantar soluções rapidamente.
Melhora a precisão da previsão: Através de avaliação extensiva e seleção de modelos de granularidade fina, o MMF permite que as organizações descubram eficientemente abordagens de previsão que fornecem precisão aprimorada.
Habilita a prontidão para produção: Ao aderir às melhores práticas de MLOps, o MMF se integra nativamente ao Databricks, garantindo uma implantação sem interrupções.

Acesse Mais de 40 Modelos Usando o Framework

O framework Many Model Forecasting (MMF) é entregue como um repositório Github com código-fonte totalmente acessível, transparente e comentado. As organizações podem usar o framework como está ou estendê-lo para adicionar funcionalidades necessárias por sua organização específica.

O MMF inclui suporte integrado para mais de 40 modelos através da integração de algumas das bibliotecas de previsão de código aberto mais populares disponíveis hoje, incluindo statsforecast, neuralforecast, sktime, r fable, chronos, moirai e moment. E à medida que nossos clientes exploram modelos mais recentes, pretendemos dar suporte a ainda mais.

Com esses modelos já integrados ao framework, os usuários podem eliminar o desenvolvimento redundante de preparação de dados e treinamento de modelos específicos para cada modelo e, em vez disso, focar na avaliação e implantação, acelerando significativamente o tempo de lançamento no mercado. Isso é particularmente vantajoso para equipes de cientistas de dados e engenheiros de machine learning com recursos limitados e stakeholders de negócios ansiosos por resultados.

Usando o MMF, as equipes de previsão podem avaliar múltiplos modelos simultaneamente, permitindo que a lógica integrada e personalizada selecione o melhor modelo para cada série temporal e aprimorando a precisão geral da solução de previsão. Implantado em um cluster Databricks, o MMF aproveita todos os recursos disponibilizados para acelerar o treinamento e a avaliação de modelos através de paralelismo automatizado. As equipes simplesmente configuram os recursos que desejam usar para o exercício de previsão e o MMF cuida do resto.

Foco em Saídas de Modelo e Avaliações Comparativas

A chave para o MMF é a padronização das saídas do modelo. Ao executar previsões, o MMF gera duas tabelas UC: evaluation_output e scoring_output. A tabela evaluation_output (Figura 1) armazena todos os resultados de avaliação de cada período de backtesting, em todas as séries temporais e modelos, fornecendo uma visão abrangente do desempenho de cada modelo. Isso inclui previsões junto com os valores reais, permitindo que os usuários construam métricas personalizadas que se alinham com necessidades de negócios específicas. Embora o MMF ofereça várias métricas prontas para uso, como MAE, MSE, RMSE, MAPE e SMAPE, a flexibilidade para criar métricas personalizadas facilita a avaliação detalhada e a seleção ou ensemble de modelos, garantindo resultados de previsão ideais.

Figura 1. Resultados de avaliação capturados automaticamente na tabela evaluation_ouput pelo MMF

A segunda tabela, scoring_output (Figura 2), contém previsões para cada série temporal de cada modelo. Usando os resultados abrangentes de avaliação armazenados na tabela evaluation_output, você pode selecionar previsões do modelo com melhor desempenho ou de uma combinação de modelos. Ao escolher as previsões finais de um conjunto de modelos concorrentes ou um ensemble de modelos selecionados, você pode alcançar precisão e estabilidade superiores em comparação com a dependência de um único modelo, aprimorando assim a precisão e a estabilidade geral de sua solução de previsão em larga escala.

Figura 2. Saída de previsão capturada automaticamente na tabela scoring_output pelo MMF

Facilite o Gerenciamento de Modelos Através da Automação

Construído na plataforma Databricks, o MMF se integra perfeitamente às suas capacidades de Databricks, fornecendo registro automatizado de parâmetros, métricas agregadas e modelos (para modelos globais e de fundação) para o MLflow (Figura 3). Protegido como parte do Unity Catalog da Databricks, as equipes de previsão podem empregar controle de acesso de granularidade fina e gerenciamento adequado de seus modelos, não apenas de suas saídas de modelo.

Figura 3. Registro automatizado de modelos fornecido pelo MMF e MLFlow

Caso uma equipe precise reutilizar um modelo (como é comum em cenários de machine learning), ela pode simplesmente carregá-lo em seu cluster usando o método load_model do MLflow ou implantá-lo em um endpoint em tempo real usando o Databricks Model Serving (Figura 4). Com modelos de fundação de séries temporais hospedados no Model Serving, você pode gerar previsões de múltiplos passos à frente a qualquer momento, desde que forneça o histórico na resolução correta. Essa capacidade aprimora significativamente aplicações em previsão sob demanda, monitoramento em tempo real e rastreamento.

Figura 4. Um endpoint de exemplo fornecendo geração de saída de previsão em tempo real de um modelo hospedado no model serving

Comece Agora

Na Databricks, a geração de previsões é um dos casos de uso mais populares entre os clientes. A natureza fundamental da previsão para tantos processos de negócios significa que as organizações estão constantemente buscando melhorias na precisão das previsões.

Com este framework, esperamos fornecer às equipes de previsão acesso fácil à funcionalidade mais escalável, robusta e extensa necessária para apoiar seu trabalho. Através do MMF, as equipes agora podem se concentrar em gerar resultados e menos em todo o trabalho de desenvolvimento necessário para avaliar novas abordagens e prepará-las para produção.

Agradecimentos

Agradecemos às equipes por trás do statsforecast e neuralforecast (Nixtla), r fable, sktime, chronos, moirai, moment e timesfm por suas contribuições às comunidades de código aberto, que nos forneceram acesso às suas ferramentas excepcionais.

Confira o repositório MMF e os notebooks de exemplo mostrando como as organizações podem começar a usá-lo em seu ambiente Databricks.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs