Previsões de ventas precisas melhoram a satisfação do cliente em todas as indústrias, incluindo os de viagens e varejo. A Pilot Company opera mais de 900 unidades, com operações comerciais que dependem de previsões rápidas e confiáveis para atender nossos clientes. Gargalos legados (como compute subutilizado e ciclos de modelo demorados) poderiam levar a previsões desatualizadas, o que pode impactar negativamente a experiência de nossos clientes.
A Pilot Company precisava de um pipeline de AI que possibilitasse previsões frequentes e granulares, sem aumentar os gastos com infraestrutura. Os métodos tradicionais de retreinamento manual ou em lote não conseguiam acompanhar o ritmo.
Para enfrentar esses desafios, a Pilot Company utilizou:
A sobreposição do Ray para paralelismo de tarefas sobre o paralelismo de dados do Spark permite que a Pilot Company otimize a criação de modelos de ponta a ponta. Os modelos agora são retreinados assim que novos dados se tornam disponíveis, traduzindo a eficiência da infraestrutura em benefícios comerciais tangíveis.
A criação de um modelo de previsão de alta precisão para ventas no varejo envolve vários os passos:
No Spark, os dados são divididos em partições. Cada executor processa-os em paralelo usando funções de ordem superior e lambda (p. ex., map, filter) em RDDs ou DataFrames. Isso permite um escalonamento contínuo para ETL, processos em lotes e engenharia de recurso, reduzindo drasticamente o tempo de preparação e transformações de dados.
O Ray permite que milhares de Jobs de treinamento de modelos ou de ajuste de hiperparâmetros sejam executadas simultaneamente, atribuindo frações ideais de CPU ou GPU por tarefa — maximizando a utilização do cluster. Por exemplo, o Ray pode fazer o ajuste fino de mais de 1.400 modelos de séries temporais de uma só vez em um clusters de 52 núcleos, adequando a oferta de compute à demanda de job.
A integração com o Databricks permite a transferência em memória via Apache Arrow, fazendo a transição do ambiente de dados do Spark para tarefas de ML orientadas pelo Ray sem gargalos de I/O.
O paralelismo de tarefas é crucial no treinamento e ajuste de modelos, especialmente ao otimizar milhares de modelos individuais, como a previsão de demanda para cada item em cada loja de uma rede de varejo inteira. O Ray se destaca nessa camada, orquestrando cargas de trabalho para que cada tarefa de treinamento de modelo ou otimização de hiperparâmetros seja executada de forma independente e simultânea.
O que diferencia o Ray é sua eficiência de recurso: ele não apenas consegue gerenciar milhares de tarefas concorrentes, mas também aloca dinamicamente a quantidade certa de recurso de compute — atribuindo números específicos ou até mesmo frações de núcleos de CPU e GPU a cada tarefa com base na complexidade. Por exemplo, o Ray pode alocar frações tão pequenas quanto 0,25, 0,5 ou 1 núcleo de CPU inteiro (ou combinações como 1 CPU e 0,5 GPU) para diferentes jobs, maximizando a utilização geral do cluster.
Em nosso benchmark, esse paralelismo de granularidade fina nos permitiu ensinar e ajustar mais de 1.400 modelos de séries temporais simultaneamente em um clusters de 52 núcleos, resultando em uma redução do tempo total de processamento de quase 3 horas (usando apenas o Spark) para menos de 30 minutos com o Ray no Databricks. Isso não apenas significa que os engenheiros podem fazer mais e mais rápido, mas também garante que cada recurso de hardware disponível seja totalmente aproveitado para gerar valor de negócio.
Key benefício: a integração do Ray com o Databricks permite a transferência de dados em memória com o Apache Arrow, permitindo que as cargas de trabalho de ML alternem do ambiente de preparação de dados do Spark diretamente para os experimentos executados pelo Ray, sem a complexidade de E/S de arquivos.
Cenário
Linha de base: Apenas Spark (Cluster 1)
Acelerado: Ray-on-Spark (Cluster 2)
Impacto no negócio:
Essa abordagem paralelizada não apenas acelerou a previsão para nossas operações de varejo, mas também transformará a maneira como as equipes de cadeia de suprimentos, merchandising e marketing da Pilot Company usam percepções para apoiar nosso propósito de mostrar às pessoas que elas são importantes em todos os momentos. Ao reduzir o tempo necessário para o treinamento e ajuste de modelos de previsão de horas para minutos, os modelos podem ser retreinados com muito mais frequência. Essa maior frequência permite que as previsões reflitam tendências de ventas em tempo real, sazonalidade e mudanças nas preferências do consumidor, capturando a "realidade do momento" muito melhor do que abordagens mais lentas e baseadas em lotes.
Como resultado, o planejamento de estoque será mais preciso, permitindo que as lojas estoquem exatamente o que precisam. Para os gerentes de categoria, a velocidade para obter percepções acionáveis permitirá um alinhamento mais preciso entre as previsões de demanda e as decisões de compra.
Mais importante ainda, as equipes de marketing e merchandising terão a capacidade de responder rapidamente com campanhas promocionais data-driven, lançando ofertas nos momentos mais oportunos e mostrando às pessoas que elas são importantes em todos os momentos. Este ciclo de feedback fechado, no qual os modelos são continuamente aprimorados com base nos dados más recentes de cada loja, posiciona a empresa para permanecer ágil e obcecada pelo cliente em um ambiente de varejo em rápida mudança.
Um exemplo de código simples:
A combinação do paralelismo de dados com o Spark e do paralelismo de tarefa com o Ray — principalmente quando em execução em uma stack unificada do Databricks — permite que as equipes de AI/ML superem os gargalos legados. Os tempos de execução despencam, a utilização do compute dispara e as implantações corporativas se tornam muito mais econômicas.
Adicionar o Ray aos seus clusters do Databricks Spark pode reduzir o tempo de criação de modelos para tarefas de ML em grande escala, permitindo que as organizações prevejam, planejem e concorram com mais velocidade e precisão.
Redefina o que é possível com a Databricks Data Intelligence Platform. Saiba mais hoje.
(This blog post has been translated using AI-powered tools) Original Post
Líder de dados
May 27, 2025/4 min de leitura

