Os clientes esperam respostas instantâneas em todas as interações, seja uma recomendação renderizada em milissegundos, uma cobrança fraudulenta bloqueada antes de ser concluída ou um resultado de pesquisa que pareça imediato para o usuário. Em escala, a entrega dessas experiências depende de sistemas de servindo modelo que permaneçam rápidos, estáveis e previsíveis, mesmo sob carga sustentada e irregular.
À medida que o tráfego aumenta para dezenas ou centenas de milhares de solicitações por segundo, muitas equipes enfrentam o mesmo conjunto de desafios. A latência se torna inconsistente, os custos de infraestrutura aumentam e os sistemas exigem ajuste constante para lidar com picos e quedas na demanda. As falhas também se tornam mais difíceis de diagnosticar à medida que mais componentes são interligados, afastando as equipes do aprimoramento dos modelos e fazendo com que se concentrem em manter os sistemas de produção em funcionamento.
Esta postagem explica como o Model Serving no Databricks suporta cargas de trabalho em tempo real de alto QPS e descreve melhores práticas concretas que você pode aplicar para alcançar baixa latência, alta throughput e desempenho previsível em produção.
O Model Serving do Databricks fornece uma infraestrutura de serviço totalmente gerenciada e escalável diretamente no seu lakehouse do Databricks. Basta pegar um modelo existente no seu registro de modelos, implantá-lo e obter um endpoint REST em uma infraestrutura gerenciada altamente escalável e otimizada para tráfego com alto QPS.
O Model Serving do Databricks é otimizado para cargas de trabalho de missão crítica com alto QPS:
O Databricks Model Serving capacita nossa equipe a implantar modelos do machine learning com a confiabilidade e a escala necessárias para aplicações em tempo real. Ele foi projetado para lidar com cargas de trabalho de alto QPS, enquanto maximiza a utilização do hardware. Além disso, o Databricks oferece uma solução de Feature Store SOTA com consultas super-rápidas, necessárias para essas cargas de trabalho. Com esses recursos, nossos engenheiros de ML podem se concentrar no que importa: aprimorar o desempenho do modelo e melhorar a experiência do usuário. — Bojan Babic, Engenheiro de Pesquisa, You.com
Com essa base estabelecida, o próximo o passo é otimizar seus Endpoints, modelos e aplicações de cliente para alcançar consistentemente alta throughput e baixa latência, especialmente à medida que o tráfego aumenta. As melhores práticas a seguir dão suporte a implantações reais de clientes que executam de milhões a bilhões de inferências todos os dias.
Consulte nosso guia de práticas recomendadas para mais detalhes.
Um primeiro key o passo é garantir que a camada de rede esteja otimizada para alta throughput/QPS e baixa latência. O Model Serving faz isso por você por meio de endpoints com rota otimizada. Ao habilitar a otimização de rota em um endpoint, o Model Serving do Databricks otimiza a rede e o roteamento para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre seu cliente e o modelo. Isso diminui significativamente o tempo que uma solicitação leva para chegar ao modelo e é especialmente útil para aplicações de baixa latência, como sistemas de recomendação, pesquisa e detecção de fraude.
Em cenários de alto throughput, reduzir a complexidade do modelo, descarregar o processamento do endpoint de serviço e escolher as metas de simultaneidade certas ajuda seu endpoint a escalar para grandes volumes de solicitações com a quantidade certa de computação necessária. Dessa forma, seus endpoints são econômicos, mas ainda podem ser escalados para atingir as metas de desempenho.
Com o Databricks Model Serving, podemos lidar com cargas de trabalho de alto QPS, como personalização e recomendações, em tempo real. Ele dá às nossas marcas a escala e a velocidade necessárias para oferecer experiências de conteúdo personalizadas aos nossos milhões de leitores. — Oscar Celma, SVP de Ciência de Dados e Análise de Produtos na Conde Nast
A otimização do código do lado do cliente garante que as solicitações sejam processadas rapidamente e que as instâncias de computação do seu endpoint sejam totalmente utilizadas, resultando em um melhor throughput de QPS, economia de custos e menor latência.
Agrupe as solicitações em lotes ao chamar os endpoints do Databricks Model Serving
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Produto
12 de junho de 2024/11 min de leitura
IA
7 de janeiro de 2025/8 min de leitura

