Ir para o conteúdo principal

Crie agentes específicos de domínio e de alta qualidade com um custo 95% menor

Apresentando preços baseados em tokens para avaliação do MLflow GenAI

Introducing Token Based Pricing for Agent Evaluation

Published: October 15, 2025

Produto5 min de leitura

Summary

  • Custos de avaliação 95% mais baixos: o novo modelo de preços baseado em tokens no MLflow reduz os custos diários de avaliação sem sacrificar o rigor.
  • Prompts de código aberto: Acesse prompts de avaliação testados em produção que abrangem finanças, saúde, documentação técnica, segurança e muito mais.
  • Opções flexíveis de juiz: use modelos otimizados integrados ou traga seus próprios LLMs para atender às necessidades de conformidade, custo e específicas do domínio em escala.

Agentes de GenAI de alta qualidade precisam ser avaliados continuamente. Mas, quando você amplia os testes, os custos podem ultrapassar seu orçamento. Com o MLflow no Databricks, as equipes podem testar agentes em várias métricas sem que o custo se torne uma barreira.

Novo modelo de preços baseado em tokens para juízes predefinidos

À medida que os agentes passam do protótipo para a produção, o sucesso depende do entendimento do seu domínio (por exemplo, contratos, suporte ao cliente, registros), e não apenas de benchmarks gerais. Os juízes predefinidos do MLflow ajudam avaliando automaticamente a correção, a fidelidade, a relevância, a segurança e a recuperação, em vez de depender de prompt engineering.

Os clientes nos pediram para analisar como podemos melhorar os custos de avaliação em escala de produção. Hoje, estamos lançando preços baseados em tokens para judges em vez de pagar por blocos fixos.

  • Será cobrado de você US$ 0,15 por milhão de tokens de entrada
  • E $0,60 por milhão de tokens de saída
  • Em média, os custos caem cerca de 95% sem perda de precisão.

Exemplo para 10.000 traces

Antes

  • $0,0175 por solicitação de judge
  • 5.000 tokens por solicitação
  • Resultado: 10.000 traces × 5 judges = $875/dia

Agora

  • US$ 0,15 por 1 milhão de tokens de entrada
  • US$ 0,60 por 1 milhão de tokens de saída
  • Resultado: 10.000 rastreamentos × 5 juízes = US$ 45/dia
    • Entrada: 50.000 solicitações × 4.000 tokens × US$ 0,15/1 M = US$ 30
    • Saída: 50.000 solicitações × 500 tokens × US$ 0,60/1 milhão = US$ 15

A abordagem baseada em tokens permite uma redução drástica nos custos e total transparência de como eles são calculados.

Os traces no MLflow podem ser avaliados automaticamente por judges de LLM ou por anotadores humanos.
Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.

Disponibilizando em código aberto prompts de avaliação com eficácia comprovada

Criar prompts de avaliação eficazes significa equilibrar a acurácia com a eficiência de tokens, especialmente para aplicações de domínio específico. As equipes passam semanas fazendo o ajuste fino de modelos para finanças, saúde ou documentação técnica, e cada grupo repete o trabalho.

Para ajudar, estamos tornando de código aberto os prompts de avaliação por trás do MLflow GenAI. Eles foram refinados em contextos específicos de setores como finanças, saúde, documentação técnica e segurança para ter um bom desempenho em cenários do mundo real. Use-os como estão ou adapte-os para seus casos de uso específicos.

Você pode explorar nossos prompts de nível de produção aqui

Esses prompts foram validados em benchmarks rigorosos, incluindo:

  • FinanceBench: Perguntas e respostas em documentos financeiros
  • HotPotQA: Raciocínio em múltiplos saltos entre documentos
  • DocsQA: Compreensão de documentação técnica
  • RAGTruth: precisão da geração aumentada por recuperação
  • Perguntas Naturais: Consultas de pesquisa reais do Google
  • HarmBench: segurança de LLM
  • Conjuntos de dados de clientes da Databricks (com permissão)

Além dos Judges integrados: Traga seu próprio modelo

Nossos juízes integrados são poderosos, mas algumas organizações precisam de controle total. Agora, você pode usar seu próprio modelo (OpenAI, Anthropic ou seu modelo com ajuste fino) para avaliação, sem custo adicional. Você paga apenas pelo uso do modelo.

Isso permite que você:

  • Atenda a requisitos de conformidade específicos para a seleção de modelos
  • Aproveite os contratos empresariais existentes com provedores de LLM
  • Use modelos especializados treinados com seus dados
  • Controle todo o seu pipeline de avaliação

Pronto para produção desde o primeiro dia

Uma avaliação econômica não significa nada se não puder ser escalada com as suas necessidades de produção. A avaliação do MLflow GenAI no Databricks oferece:

  • Integração com o Unity Catalog: gerencie rastreamentos e dados de avaliação com segurança de nível empresarial
  • Armazenamento do Delta Lake: armazene rastros e dados de avaliação no formato Delta, permitindo que você crie dashboards e pipelines de dados personalizados a partir de dados de rastro e avaliação
  • Integração total com o MLflow: visualize rastros e resultados de avaliação diretamente no MLflow
  • Computação sem servidor: pague apenas pelo que usar, sem gerenciamento de infraestrutura.

Comece a usar hoje

Os novos preços e os prompts de código aberto estão disponíveis imediatamente para todos os clientes da Databricks. Veja como começar:

  1. Para os usuários atuais da avaliação do MLflow: Seus judges usarão automaticamente o novo modelo de preços — nenhuma ação é necessária
  2. Para novos usuários: Comece com nosso guia de início rápido. Você também pode explorar nossos cursos mais recentes para entender como criar Agentes de IA na Databricks.
    1. Fundamentos de agentes de IA: um curso introdutório de 90 minutos sobre os conceitos básicos de agentes de IA com exemplos do mundo real de como eles criam valor para sua organização.
    2. Comece a usar Agentes de IA: Em pouco mais de duas horas, vá da teoria à criação e implantação do seu primeiro agente no Databricks.
  3. Para usuários do MLflow OSS: atualize para o MLflow 3.4.0+ para acessar os prompts de código aberto.

Um novo capítulo para a avaliação de aplicações de GenAI

Ao reduzir os custos em 95% e ao tornar de código aberto os prompts testados em produção, tornamos a avaliação acessível em grande escala. Seja em finanças, saúde ou CX, você pode monitorar continuamente a qualidade do agente sem estourar seu orçamento.

Pronto para transformar sua estratégia de avaliação de agentes? Comece a usar gratuitamente ou explore nossa documentação.

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada