Agentes de GenAI de alta qualidade precisam ser avaliados continuamente. Mas, quando você amplia os testes, os custos podem ultrapassar seu orçamento. Com o MLflow no Databricks, as equipes podem testar agentes em várias métricas sem que o custo se torne uma barreira.
À medida que os agentes passam do protótipo para a produção, o sucesso depende do entendimento do seu domínio (por exemplo, contratos, suporte ao cliente, registros), e não apenas de benchmarks gerais. Os juízes predefinidos do MLflow ajudam avaliando automaticamente a correção, a fidelidade, a relevância, a segurança e a recuperação, em vez de depender de prompt engineering.
Os clientes nos pediram para analisar como podemos melhorar os custos de avaliação em escala de produção. Hoje, estamos lançando preços baseados em tokens para judges em vez de pagar por blocos fixos.
Exemplo para 10.000 traces
Antes
Agora
A abordagem baseada em tokens permite uma redução drástica nos custos e total transparência de como eles são calculados.
Criar prompts de avaliação eficazes significa equilibrar a acurácia com a eficiência de tokens, especialmente para aplicações de domínio específico. As equipes passam semanas fazendo o ajuste fino de modelos para finanças, saúde ou documentação técnica, e cada grupo repete o trabalho.
Para ajudar, estamos tornando de código aberto os prompts de avaliação por trás do MLflow GenAI. Eles foram refinados em contextos específicos de setores como finanças, saúde, documentação técnica e segurança para ter um bom desempenho em cenários do mundo real. Use-os como estão ou adapte-os para seus casos de uso específicos.
Você pode explorar nossos prompts de nível de produção aqui.
Esses prompts foram validados em benchmarks rigorosos, incluindo:
Nossos juízes integrados são poderosos, mas algumas organizações precisam de controle total. Agora, você pode usar seu próprio modelo (OpenAI, Anthropic ou seu modelo com ajuste fino) para avaliação, sem custo adicional. Você paga apenas pelo uso do modelo.
Isso permite que você:
Uma avaliação econômica não significa nada se não puder ser escalada com as suas necessidades de produção. A avaliação do MLflow GenAI no Databricks oferece:
Os novos preços e os prompts de código aberto estão disponíveis imediatamente para todos os clientes da Databricks. Veja como começar:
Ao reduzir os custos em 95% e ao tornar de código aberto os prompts testados em produção, tornamos a avaliação acessível em grande escala. Seja em finanças, saúde ou CX, você pode monitorar continuamente a qualidade do agente sem estourar seu orçamento.
Pronto para transformar sua estratégia de avaliação de agentes? Comece a usar gratuitamente ou explore nossa documentação.
(This blog post has been translated using AI-powered tools) Original Post
Produto
June 11, 2024/11 min de leitura

