Introduction de la tarification basée sur les jetons pour l'évaluation GenAI de MLflow
par Avesh Singh, Euirim Choi, Samraj Moorjani et Yuki Watanabe
Les agents GenAI de haute qualité doivent être évalués en continu. Mais lorsque vous augmentez l'échelle des tests, les coûts peuvent dépasser votre budget. Avec MLflow sur Databricks, les équipes peuvent tester les agents sur de nombreuses métriques sans que le coût ne devienne une barrière.
À mesure que les agents passent du prototype à la production, le succès dépend de la compréhension de votre domaine (par exemple, contrats, support client, dépôts), et pas seulement des benchmarks généraux. Les juges prédéfinis de MLflow aident en évaluant automatiquement la correction, la fidélité, la pertinence, la sécurité et la récupération, plutôt que de s'appuyer sur l'ingénierie des prompts.
Les clients nous ont demandé d'examiner comment nous pouvons améliorer les coûts d'évaluation à l'échelle de la production. Ainsi, aujourd'hui, nous lançons une tarification basée sur les jetons pour les juges, plutôt que de payer pour des blocs fixes.
Exemple pour 10 000 traces
Avant
Maintenant
L'approche basée sur les jetons permet à la fois une réduction spectaculaire des coûts et une transparence totale sur la manière dont ils sont calculés.
La création de prompts d'évaluation efficaces nécessite d'équilibrer la précision et l'efficacité des jetons, en particulier pour les applications spécifiques à un domaine. Les équipes passent des semaines à les affiner pour la finance, la santé ou la documentation technique, chaque groupe répétant le travail.
Pour aider, nous publions en open-source les prompts d'évaluation derrière MLflow GenAI. Ils ont été affinés dans des contextes spécifiques à l'industrie tels que la finance, la santé, la documentation technique et la sécurité pour bien performer dans des scénarios réels. Utilisez-les tels quels ou adaptez-les à vos cas d'utilisation spécifiques.
Vous pouvez explorer nos prompts de qualité production ici.
Ces prompts ont été validés sur des benchmarks rigoureux, notamment :
Nos juges intégrés sont puissants, mais certaines organisations ont besoin d'un contrôle total. Désormais, vous pouvez brancher votre propre modèle (OpenAI, Anthropic ou votre modèle affiné) pour l'évaluation sans frais supplémentaires. Vous payez uniquement pour l'utilisation du modèle.
Cela vous permet de :
Une évaluation rentable ne signifie rien si elle ne peut pas évoluer avec vos besoins de production. L'évaluation MLflow GenAI sur Databricks fournit :
La nouvelle tarification et les prompts open-source sont immédiatement disponibles pour tous les clients Databricks. Voici comment commencer :
En réduisant les coûts de 95 % et en rendant open-source les invites testées en production, nous rendons l'évaluation accessible à grande échelle. Que ce soit dans la finance, la santé ou le CX, vous pouvez surveiller en continu la qualité des agents sans vous ruiner.
Prêt à transformer votre stratégie d'évaluation des agents ? Commencez gratuitement ou explorez notre documentation.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.