Apresentando Preços Baseados em Tokens para Avaliação GenAI do MLflow
por Avesh Singh, Euirim Choi, Samraj Moorjani e Yuki Watanabe
Agentes de GenAI de alta qualidade precisam ser avaliados continuamente. Mas, ao escalar os testes, os custos podem ultrapassar seu orçamento. Com o MLflow no Databricks, as equipes podem testar agentes em várias métricas sem que o custo se torne uma barreira.
À medida que os agentes passam do protótipo para a produção, o sucesso depende do entendimento do seu domínio (por exemplo, contratos, suporte ao cliente, registros), não apenas de benchmarks gerais. Os juízes predefinidos do MLflow ajudam avaliando automaticamente a correção, fidelidade, relevância, segurança e recuperação, em vez de depender de engenharia de prompt.
Os clientes nos pediram para analisar como podemos melhorar os custos de avaliação em escala de produção. Por isso, hoje, estamos lançando preços baseados em tokens para juízes, em vez de pagar por blocos fixos.
Exemplo para 10.000 traces
Antes
Agora
A abordagem baseada em tokens permite uma redução drástica nos custos e total transparência em como eles são calculados.
Criar prompts de avaliação eficazes significa equilibrar precisão com eficiência de tokens, especialmente para aplicações específicas de domínio. As equipes passam semanas ajustando-os para finanças, saúde ou documentação técnica, com cada grupo repetindo o trabalho.
Para ajudar, estamos disponibilizando os prompts de avaliação por trás do MLflow GenAI como open-source. Eles foram refinados em contextos específicos da indústria, como finanças, sa úde, documentação técnica e segurança, para ter um bom desempenho em cenários do mundo real. Use-os como estão ou adapte-os para seus casos de uso específicos.
Você pode explorar nossos prompts de nível de produção aqui.
Esses prompts foram validados em benchmarks rigorosos, incluindo:
Nossos juízes integrados são poderosos, mas algumas organizações precisam de controle total. Agora, você pode conectar seu próprio modelo (OpenAI, Anthropic ou seu modelo fine-tuned) para avaliação sem custo extra. Você paga apenas pelo uso do modelo.
Isso permite que você:
Avaliação econômica não significa nada se não puder escalar com suas necessidades de produção. A avaliação MLflow GenAI no Databricks oferece:
Os novos preços e os prompts open-source estão disponíveis imediatamente para todos os clientes Databricks. Veja como começar:
Ao reduzir custos em 95% e disponibilizar prompts testados em produção como código aberto, tornamos a avaliação acessível em escala. Seja em finanças, saúde ou CX, você pode monitorar continuamente a qualidade do agente sem estourar seu orçamento.
Pronto para transformar sua estratégia de avaliação de agentes? Comece gratuitamente ou explore nossa documentação.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.