Ir para o conteúdo principal
Produto

Crie Agentes de Alta Qualidade e Específicos de Domínio com 95% Menos Custo

Apresentando Preços Baseados em Tokens para Avaliação GenAI do MLflow

por Avesh Singh, Euirim Choi, Samraj Moorjani e Yuki Watanabe

  • 95% de redução nos custos de avaliação: o novo preço baseado em tokens no MLflow reduz os custos diários de avaliação sem sacrificar o rigor.
  • Prompts de código aberto: acesse prompts de avaliação testados em produção abrangendo finanças, saúde, documentação técnica, segurança e muito mais.
  • Opções flexíveis de juízes: use modelos otimizados integrados ou traga seus próprios LLMs para atender às necessidades de conformidade, custo e específicas de domínio em escala.

Agentes de GenAI de alta qualidade precisam ser avaliados continuamente. Mas, ao escalar os testes, os custos podem ultrapassar seu orçamento. Com o MLflow no Databricks, as equipes podem testar agentes em várias métricas sem que o custo se torne uma barreira.

Novo Modelo de Preços Baseado em Tokens para Juízes Predefinidos

À medida que os agentes passam do protótipo para a produção, o sucesso depende do entendimento do seu domínio (por exemplo, contratos, suporte ao cliente, registros), não apenas de benchmarks gerais. Os juízes predefinidos do MLflow ajudam avaliando automaticamente a correção, fidelidade, relevância, segurança e recuperação, em vez de depender de engenharia de prompt.

Os clientes nos pediram para analisar como podemos melhorar os custos de avaliação em escala de produção. Por isso, hoje, estamos lançando preços baseados em tokens para juízes, em vez de pagar por blocos fixos.

  • Você será cobrado $0,15 por milhão de tokens de entrada
  • E $0,60 por milhão de tokens de saída
  • Em média, os custos caem cerca de 95% sem perda de precisão

Exemplo para 10.000 traces

Antes

  • $0,0175 por solicitação de juiz
  • 5.000 tokens por solicitação
  • Resultado: 10.000 traces × 5 juízes = $875/dia

Agora

  • $0,15 por 1M de tokens de entrada
  • $0,60 por 1M de tokens de saída
  • Resultado: 10.000 traces × 5 juízes = $45/dia
    • Entrada: 50.000 solicitações × 4.000 tokens × $0,15/1M = $30
    • Saída: 50.000 solicitações × 500 tokens × $0,60/1M = $15

A abordagem baseada em tokens permite uma redução drástica nos custos e total transparência em como eles são calculados.

Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.
Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.

Open-Sourcing de Prompts de Avaliação Testados em Batalha

Criar prompts de avaliação eficazes significa equilibrar precisão com eficiência de tokens, especialmente para aplicações específicas de domínio. As equipes passam semanas ajustando-os para finanças, saúde ou documentação técnica, com cada grupo repetindo o trabalho.

Para ajudar, estamos disponibilizando os prompts de avaliação por trás do MLflow GenAI como open-source. Eles foram refinados em contextos específicos da indústria, como finanças, saúde, documentação técnica e segurança, para ter um bom desempenho em cenários do mundo real. Use-os como estão ou adapte-os para seus casos de uso específicos.

Você pode explorar nossos prompts de nível de produção aqui.

Esses prompts foram validados em benchmarks rigorosos, incluindo:

  • FinanceBench: Resposta a perguntas em documentos financeiros
  • HotPotQA: Raciocínio multi-hop entre documentos
  • DocsQA: Compreensão de documentação técnica
  • RAGTruth: Precisão de geração aumentada por recuperação
  • Natural Questions: Consultas reais de pesquisa do Google
  • HarmBench: Segurança de LLM
  • Conjuntos de dados de clientes Databricks (com permissão)

Além dos Juízes Integrados: Traga Seu Próprio Modelo

Nossos juízes integrados são poderosos, mas algumas organizações precisam de controle total. Agora, você pode conectar seu próprio modelo (OpenAI, Anthropic ou seu modelo fine-tuned) para avaliação sem custo extra. Você paga apenas pelo uso do modelo.

Isso permite que você:

  • Atenda a requisitos específicos de conformidade para seleção de modelos
  • Aproveite acordos corporativos existentes com provedores de LLM
  • Use modelos especializados treinados em seus dados
  • Controle todo o seu pipeline de avaliação

Pronto para Produção Desde o Primeiro Dia

Avaliação econômica não significa nada se não puder escalar com suas necessidades de produção. A avaliação MLflow GenAI no Databricks oferece:

  • Integração com Unity Catalog: Governe traces e dados de avaliação com segurança de nível empresarial
  • Armazenamento Delta Lake: Armazene traces e dados de avaliação no formato Delta, permitindo que você crie dashboards personalizados e pipelines de dados a partir de dados de traces e avaliações
  • Integração completa com MLflow: Visualize traces e resultados de avaliação diretamente no MLflow
  • Computação Serverless: Pague apenas pelo que usar, sem gerenciamento de infraestrutura

Comece Hoje Mesmo

Os novos preços e os prompts open-source estão disponíveis imediatamente para todos os clientes Databricks. Veja como começar:

  1. Para usuários existentes de avaliação MLflow: Seus juízes usarão automaticamente o novo modelo de preços — nenhuma ação necessária
  2. Para novos usuários: Comece com nosso guia de início rápido. Você também pode explorar nossos cursos mais recentes para entender como construir Agentes de IA no Databricks.
    1. Fundamentos de Agentes de IA: Um curso introdutório de 90 minutos sobre os conceitos básicos de agentes de IA com exemplos do mundo real de como eles agregam valor à sua organização.
    2. Comece com Agentes de IA: Em pouco mais de duas horas, passe da teoria para a construção e implantação do seu primeiro agente no Databricks.
  3. Para usuários do MLflow OSS: atualize para MLflow 3.4.0+ para acessar os prompts de código aberto

Um Novo Capítulo para Avaliação de Aplicações GenAI

Ao reduzir custos em 95% e disponibilizar prompts testados em produção como código aberto, tornamos a avaliação acessível em escala. Seja em finanças, saúde ou CX, você pode monitorar continuamente a qualidade do agente sem estourar seu orçamento.

Pronto para transformar sua estratégia de avaliação de agentes? Comece gratuitamente ou explore nossa documentação.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.