15 de outubro de 2025

Crie Agentes de Alta Qualidade e Específicos de Domínio com 95% Menos Custo

Apresentando Preços Baseados em Tokens para Avaliação GenAI do MLflow

por Avesh Singh, Euirim Choi, Samraj Moorjani e Yuki Watanabe

95% de redução nos custos de avaliação: o novo preço baseado em tokens no MLflow reduz os custos diários de avaliação sem sacrificar o rigor.
Prompts de código aberto: acesse prompts de avaliação testados em produção abrangendo finanças, saúde, documentação técnica, segurança e muito mais.
Opções flexíveis de juízes: use modelos otimizados integrados ou traga seus próprios LLMs para atender às necessidades de conformidade, custo e específicas de domínio em escala.

Agentes de GenAI de alta qualidade precisam ser avaliados continuamente. Mas, ao escalar os testes, os custos podem ultrapassar seu orçamento. Com o MLflow no Databricks, as equipes podem testar agentes em várias métricas sem que o custo se torne uma barreira.

Novo Modelo de Preços Baseado em Tokens para Juízes Predefinidos

À medida que os agentes passam do protótipo para a produção, o sucesso depende do entendimento do seu domínio (por exemplo, contratos, suporte ao cliente, registros), não apenas de benchmarks gerais. Os juízes predefinidos do MLflow ajudam avaliando automaticamente a correção, fidelidade, relevância, segurança e recuperação, em vez de depender de engenharia de prompt.

Os clientes nos pediram para analisar como podemos melhorar os custos de avaliação em escala de produção. Por isso, hoje, estamos lançando preços baseados em tokens para juízes, em vez de pagar por blocos fixos.

Você será cobrado $0,15 por milhão de tokens de entrada
E $0,60 por milhão de tokens de saída
Em média, os custos caem cerca de 95% sem perda de precisão

Exemplo para 10.000 traces

Antes

$0,0175 por solicitação de juiz
5.000 tokens por solicitação
Resultado: 10.000 traces × 5 juízes = $875/dia

Agora

$0,15 por 1M de tokens de entrada
$0,60 por 1M de tokens de saída
Resultado: 10.000 traces × 5 juízes = $45/dia
- Entrada: 50.000 solicitações × 4.000 tokens × $0,15/1M = $30
- Saída: 50.000 solicitações × 500 tokens × $0,60/1M = $15

A abordagem baseada em tokens permite uma redução drástica nos custos e total transparência em como eles são calculados.

Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.

Open-Sourcing de Prompts de Avaliação Testados em Batalha

Criar prompts de avaliação eficazes significa equilibrar precisão com eficiência de tokens, especialmente para aplicações específicas de domínio. As equipes passam semanas ajustando-os para finanças, saúde ou documentação técnica, com cada grupo repetindo o trabalho.

Para ajudar, estamos disponibilizando os prompts de avaliação por trás do MLflow GenAI como open-source. Eles foram refinados em contextos específicos da indústria, como finanças, saúde, documentação técnica e segurança, para ter um bom desempenho em cenários do mundo real. Use-os como estão ou adapte-os para seus casos de uso específicos.

Você pode explorar nossos prompts de nível de produção aqui.

Esses prompts foram validados em benchmarks rigorosos, incluindo:

FinanceBench: Resposta a perguntas em documentos financeiros
HotPotQA: Raciocínio multi-hop entre documentos
DocsQA: Compreensão de documentação técnica
RAGTruth: Precisão de geração aumentada por recuperação
Natural Questions: Consultas reais de pesquisa do Google
HarmBench: Segurança de LLM
Conjuntos de dados de clientes Databricks (com permissão)

Além dos Juízes Integrados: Traga Seu Próprio Modelo

Nossos juízes integrados são poderosos, mas algumas organizações precisam de controle total. Agora, você pode conectar seu próprio modelo (OpenAI, Anthropic ou seu modelo fine-tuned) para avaliação sem custo extra. Você paga apenas pelo uso do modelo.

Isso permite que você:

Atenda a requisitos específicos de conformidade para seleção de modelos
Aproveite acordos corporativos existentes com provedores de LLM
Use modelos especializados treinados em seus dados
Controle todo o seu pipeline de avaliação

Pronto para Produção Desde o Primeiro Dia

Avaliação econômica não significa nada se não puder escalar com suas necessidades de produção. A avaliação MLflow GenAI no Databricks oferece:

Integração com Unity Catalog: Governe traces e dados de avaliação com segurança de nível empresarial
Armazenamento Delta Lake: Armazene traces e dados de avaliação no formato Delta, permitindo que você crie dashboards personalizados e pipelines de dados a partir de dados de traces e avaliações
Integração completa com MLflow: Visualize traces e resultados de avaliação diretamente no MLflow
Computação Serverless: Pague apenas pelo que usar, sem gerenciamento de infraestrutura

Comece Hoje Mesmo

Os novos preços e os prompts open-source estão disponíveis imediatamente para todos os clientes Databricks. Veja como começar:

Para usuários existentes de avaliação MLflow: Seus juízes usarão automaticamente o novo modelo de preços — nenhuma ação necessária
Para novos usuários: Comece com nosso guia de início rápido. Você também pode explorar nossos cursos mais recentes para entender como construir Agentes de IA no Databricks.
1. Fundamentos de Agentes de IA: Um curso introdutório de 90 minutos sobre os conceitos básicos de agentes de IA com exemplos do mundo real de como eles agregam valor à sua organização.
2. Comece com Agentes de IA: Em pouco mais de duas horas, passe da teoria para a construção e implantação do seu primeiro agente no Databricks.
Para usuários do MLflow OSS: atualize para MLflow 3.4.0+ para acessar os prompts de código aberto

Um Novo Capítulo para Avaliação de Aplicações GenAI

Ao reduzir custos em 95% e disponibilizar prompts testados em produção como código aberto, tornamos a avaliação acessível em escala. Seja em finanças, saúde ou CX, você pode monitorar continuamente a qualidade do agente sem estourar seu orçamento.

Pronto para transformar sua estratégia de avaliação de agentes? Comece gratuitamente ou explore nossa documentação.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs