15 octobre 2025

Créez des agents de haute qualité et spécifiques à un domaine à 95 % de coût en moins

Introduction de la tarification basée sur les jetons pour l'évaluation GenAI de MLflow

par Avesh Singh, Euirim Choi, Samraj Moorjani et Yuki Watanabe

95% de coûts d'évaluation en moins : La nouvelle tarification basée sur les jetons dans MLflow réduit les coûts d'évaluation quotidiens sans sacrifier la rigueur.
Prompts open-sourced : Accédez à des prompts d'évaluation testés en production couvrant la finance, la santé, la documentation technique, la sécurité, et plus encore.
Options de juge flexibles : Utilisez des modèles optimisés intégrés ou apportez vos propres LLM pour répondre aux besoins de conformité, de coût et spécifiques au domaine à grande échelle.

Les agents GenAI de haute qualité doivent être évalués en continu. Mais lorsque vous augmentez l'échelle des tests, les coûts peuvent dépasser votre budget. Avec MLflow sur Databricks, les équipes peuvent tester les agents sur de nombreuses métriques sans que le coût ne devienne une barrière.

Nouveau modèle de tarification basé sur les jetons pour les juges prédéfinis

À mesure que les agents passent du prototype à la production, le succès dépend de la compréhension de votre domaine (par exemple, contrats, support client, dépôts), et pas seulement des benchmarks généraux. Les juges prédéfinis de MLflow aident en évaluant automatiquement la correction, la fidélité, la pertinence, la sécurité et la récupération, plutôt que de s'appuyer sur l'ingénierie des prompts.

Les clients nous ont demandé d'examiner comment nous pouvons améliorer les coûts d'évaluation à l'échelle de la production. Ainsi, aujourd'hui, nous lançons une tarification basée sur les jetons pour les juges, plutôt que de payer pour des blocs fixes.

Vous serez facturé 0,15 $ par million de jetons d'entrée
Et 0,60 $ par million de jetons de sortie
En moyenne, les coûts diminuent d'environ 95 % sans perte de précision

Exemple pour 10 000 traces

Avant

0,0175 $ par requête de juge
5 000 jetons par requête
Résultat : 10 000 traces × 5 juges = 875 $/jour

Maintenant

0,15 $ par 1M de jetons d'entrée
0,60 $ par 1M de jetons de sortie
Résultat : 10 000 traces × 5 juges = 45 $/jour
- Entrée : 50 000 requêtes × 4 000 jetons × 0,15 $/1M = 30 $
- Sortie : 50 000 requêtes × 500 jetons × 0,60 $/1M = 15 $

L'approche basée sur les jetons permet à la fois une réduction spectaculaire des coûts et une transparence totale sur la manière dont ils sont calculés.

Les traces dans MLflow peuvent être automatiquement évaluées par des juges LLM, ou par des annotateurs humains.

Publication open-source des prompts d'évaluation éprouvés

La création de prompts d'évaluation efficaces nécessite d'équilibrer la précision et l'efficacité des jetons, en particulier pour les applications spécifiques à un domaine. Les équipes passent des semaines à les affiner pour la finance, la santé ou la documentation technique, chaque groupe répétant le travail.

Pour aider, nous publions en open-source les prompts d'évaluation derrière MLflow GenAI. Ils ont été affinés dans des contextes spécifiques à l'industrie tels que la finance, la santé, la documentation technique et la sécurité pour bien performer dans des scénarios réels. Utilisez-les tels quels ou adaptez-les à vos cas d'utilisation spécifiques.

Vous pouvez explorer nos prompts de qualité production ici.

Ces prompts ont été validés sur des benchmarks rigoureux, notamment :

FinanceBench : Question-réponse sur les documents financiers
HotPotQA : Raisonnement multi-sauts à travers des documents
DocsQA : Compréhension de la documentation technique
RAGTruth : Précision de la génération augmentée par récupération
Natural Questions : Requêtes de recherche Google réelles
HarmBench : Sécurité des LLM
Jeux de données clients Databricks (avec permission)

Au-delà des juges intégrés : Apportez votre propre modèle

Nos juges intégrés sont puissants, mais certaines organisations ont besoin d'un contrôle total. Désormais, vous pouvez brancher votre propre modèle (OpenAI, Anthropic ou votre modèle affiné) pour l'évaluation sans frais supplémentaires. Vous payez uniquement pour l'utilisation du modèle.

Cela vous permet de :

Respecter les exigences de conformité spécifiques pour la sélection des modèles
Tirer parti des accords d'entreprise existants avec les fournisseurs de LLM
Utiliser des modèles spécialisés entraînés sur vos données
Contrôler l'intégralité de votre pipeline d'évaluation

Prêt pour la production dès le premier jour

Une évaluation rentable ne signifie rien si elle ne peut pas évoluer avec vos besoins de production. L'évaluation MLflow GenAI sur Databricks fournit :

Intégration Unity Catalog : Gérez les traces et les données d'évaluation avec la sécurité de niveau entreprise
Stockage Delta Lake : Stockez les traces et les données d'évaluation au format Delta, vous permettant de créer des tableaux de bord personnalisés et des pipelines de données à partir des données de traces et d'évaluation
Intégration complète de MLflow : Visualisez les traces et les résultats d'évaluation directement dans MLflow
Calcul serverless : Payez uniquement pour ce que vous utilisez, sans gestion de l'infrastructure

Pour commencer dès aujourd'hui

La nouvelle tarification et les prompts open-source sont immédiatement disponibles pour tous les clients Databricks. Voici comment commencer :

Pour les utilisateurs actuels de l'évaluation MLflow : Vos juges utiliseront automatiquement le nouveau modèle de tarification, aucune action n'est requise
Pour les nouveaux utilisateurs : Commencez par notre guide de démarrage rapide. Vous pouvez également explorer nos derniers cours pour comprendre comment créer des agents IA sur Databricks.
1. Fondamentaux des agents IA : Un cours d'introduction de 90 minutes sur les bases des agents IA avec des exemples concrets de la manière dont ils créent de la valeur pour votre organisation.
2. Démarrer avec les agents IA : En un peu plus de deux heures, passez de la théorie à la création et au déploiement de votre premier agent sur Databricks.
Pour les utilisateurs de MLflow OSS : Mettez à jour vers MLflow 3.4.0+ pour accéder aux invites open-source

Un nouveau chapitre pour l'évaluation des applications GenAI

En réduisant les coûts de 95 % et en rendant open-source les invites testées en production, nous rendons l'évaluation accessible à grande échelle. Que ce soit dans la finance, la santé ou le CX, vous pouvez surveiller en continu la qualité des agents sans vous ruiner.

Prêt à transformer votre stratégie d'évaluation des agents ? Commencez gratuitement ou explorez notre documentation.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs