Les chatbots sont le cas d'usage le plus largement adopté pour exploiter les puissantes capacités de conversation et de raisonnement des grands modèles de langage (LLM). L'architecture de génération augmentée par récupération (RAG) est en passe de devenir la norme du secteur pour le développement de chatbots, car elle combine les avantages d'une base de connaissances (via une banque de vecteurs) et de modèles génératifs (p. ex. GPT-3.5 et GPT-4) afin de réduire les hallucinations, de conserver des informations à jour et d'exploiter des connaissances spécifiques à un domaine. Cependant, l'évaluation de la qualité des réponses des chatbots reste aujourd'hui un problème non résolu. En l'absence de normes sectorielles définies, les entreprises ont recours à la notation humaine (étiquetage), ce qui prend du temps et est difficile à monter en charge.
Nous avons appliqué la théorie à la pratique pour aider à établir les meilleures pratiques pour l'évaluation automatisée des LLM afin que vous puissiez déployer des applications RAG en production rapidement et en toute confiance. Cet article de blog est le premier d'une série d'études que nous menons chez Databricks pour fournir des enseignements sur l'évaluation des LLM. Toutes les recherches présentées dans cet article ont été menées par Quinn Leng, ingénieur logiciel senior chez Databricks et créateur de l'assistant IA pour la documentation Databricks.
Récemment, la communauté LLM a exploré l'utilisation de « LLM en tant que juges » pour l'évaluation automatisée. Nombreux sont ceux qui utilisent des LLM puissants, tels que GPT-4, pour évaluer les résultats de leurs LLM. Le document de recherche du groupe lmsys explore la faisabilité et les avantages/inconvénients de l'utilisation de divers LLM (GPT-4, ClaudeV1, GPT-3.5) en tant que juges pour des tâches d'écriture, de mathématiques et de connaissance du monde.
Malgré toutes ces recherches de qualité, de nombreuses questions subsistent quant à la manière d'appliquer les LLM juges en pratique :
Nous avons exploré les options possibles pour les questions décrites ci-dessus dans le contexte de notre propre application de chatbot chez Databricks. Nous pensons que nos conclusions peuvent être généralisées et peuvent donc aider votre équipe à évaluer efficacement les chatbots basés sur RAG à moindre coût et plus rapidement :
D'après nos recherches, nous recommandons la procédure suivante lors de l'utilisation d'un LLM juge :
La suite de cet article vous présentera la série d'expériences que nous avons menées pour élaborer ces meilleures pratiques.

L'expérimentation s'est déroulée en trois étapes :
Génération du dataset d'évaluation: Nous avons créé un dataset à partir de 100 questions et du contexte des documents Databricks. Le contexte représente des (fragments de) documents pertinents pour la question.

De plus, les techniques suivantes ont été utilisées pour éviter le biais de position et améliorer la fiabilité :
Pour confirmer le niveau de concordance entre les annotateurs humains et les LLM juges, nous avons envoyé des fiches de réponses (échelle de notation de 0 à 3) de gpt-3.5-turbo et vicuna-33b à une entreprise d'étiquetage afin de collecter des étiquettes humaines, puis nous avons comparé le résultat avec la sortie de notation de GPT-4. Voici les conclusions :
Les juges humains et GPT-4 peuvent atteindre un niveau de concordance supérieur à 80 % sur le score d'exactitude et de lisibilité. Et si nous abaissons l'exigence à une différence de score inférieure ou égale à 1, le niveau de concordance peut atteindre plus de 95 %.
![]() | ![]() |
La métrique d'Exhaustivité présente moins d'alignement, ce qui correspond à ce que nous ont rapporté les parties prenantes commerciales, qui ont indiqué que le terme « exhaustif » semble plus subjectif que des métriques comme l'Exactitude ou la Lisibilité.
Le document lmsys utilise ce prompt pour demander au juge LLM d'évaluer la réponse en fonction de son utilité, de sa pertinence, de son exactitude, de sa profondeur, de sa créativité et de son niveau de détail. Cependant, l'article ne donne pas de détails sur la grille de notation. D'après nos recherches, nous avons constaté que de nombreux facteurs peuvent affecter de manière significative le score final, par exemple :
Nous avons développé une grille d'évaluation pour donner des instructions à un LLM juge pour une échelle de notation donnée, en essayant ce qui suit :
|
Nous avons adapté le prompt de l'article lmsys original pour émettre nos métriques sur l'exactitude, l'exhaustivité et la lisibilité, et également pour inviter le juge à fournir une justification d'une ligne avant de donner chaque score (afin de bénéficier du raisonnement en chaîne de pensée). Vous trouverez ci-dessous la version zero-shot du prompt qui ne fournit aucun exemple, et la version few-shot du prompt qui fournit un exemple pour chaque score. Nous avons ensuite utilisé les mêmes feuilles de réponses en entrée et comparé les résultats notés des deux types de prompts.
Cette Experimentation nous a appris plusieurs choses :




L'article sur le LLM en tant que juge utilise une échelle non entière de 0 à 10 (c.-à-d. un flottant) pour l'échelle de notation ; en d'autres termes, il utilise une grille de haute précision pour le score final. Nous avons constaté que ces échelles de haute précision causaient des problèmes en aval avec les éléments suivants :
Nous avons expérimenté plusieurs échelles de notation de faible précision pour fournir des conseils sur la « meilleure » à utiliser. Finalement, nous recommandons une échelle d'entiers de 0 à 3 ou de 0 à 4 (si vous souhaitez vous en tenir à l'échelle de Likert). Nous avons essayé les échelles 0-10, 1-5, 0-3 et 0-1 et avons appris ce qui suit :


Comme le montrent les graphiques ci-dessus, GPT-4 et GPT-3.5 peuvent tous deux conserver un classement cohérent des résultats en utilisant différentes échelles de notation de faible précision. Ainsi, l'utilisation d'une échelle de notation inférieure comme 0~3 ou 1~5 permet d'équilibrer la précision et l'explicabilité)
Nous recommandons donc une échelle de notation de 0 à 3 ou de 1 à 5 pour faciliter l'alignement avec les étiquettes humaines, raisonner sur les critères de notation et fournir des exemples pour chaque score de la plage.
L'article LLM-as-judge (LLM en tant que juge) montre que le jugement du LLM et le jugement humain classent tous deux le modèle Vicuna-13B comme un concurrent proche de GPT-3.5 :
(La figure provient de la figure 4 de l'article sur LLM-as-judge : https://arxiv.org/pdf/2306.05685.pdf )
Cependant, lorsque nous avons évalué l'ensemble des modèles pour nos cas d'usage de questions-réponses (Q&A) sur des documents, nous avons constaté que même le modèle Vicuna-33B, beaucoup plus grand, a des performances nettement moins bonnes que GPT-3.5 pour répondre à des questions basées sur un contexte. Ces résultats sont également confirmés par GPT-4, GPT-3.5 et des juges humains (comme mentionné dans l'Expérimentation 1) qui s'accordent tous à dire que Vicuna-33B est moins performant que GPT-3.5.

Nous avons examiné de plus près le dataset de référence proposé par l'article et avons constaté que les 3 catégories de tâches (rédaction, mathématiques, connaissances) ne reflètent pas directement ou ne contribuent pas à la capacité du modèle à synthétiser une réponse en fonction d'un contexte. Au lieu de cela, intuitivement, les cas d'utilisation de questions-réponses sur des documents nécessitent des benchmarks sur la compréhension de texte et le suivi d'instructions. Ainsi, les résultats d'évaluation ne peuvent pas être transférés d'un cas d'utilisation à l'autre et nous devons créer des benchmarks spécifiques aux cas d'utilisation afin d'évaluer correctement dans quelle mesure un modèle peut répondre aux besoins des clients.
Grâce aux expérimentations ci-dessus, nous avons exploré comment différents facteurs peuvent affecter de manière significative l'évaluation d'un chatbot et avons confirmé qu'un LLM en tant que juge peut largement refléter les préférences humaines pour le cas d'utilisation des Q&A sur des documents. Chez Databricks, nous faisons évoluer l'API d'évaluation MLflow pour aider votre équipe à évaluer efficacement vos applications LLM sur la base de ces résultats. MLflow 2.4 a introduit l'API d'évaluation pour les LLM afin de comparer côte à côte les sorties de texte de différents modèles, MLflow 2.6 a introduit des métriques basées sur les LLM pour l'évaluation, comme la toxicité et la perplexité, et nous nous efforçons de prendre en charge le LLM-as-a-judge dans un avenir proche !
En attendant, nous avons compilé ci-dessous la liste des ressources que nous avons utilisées dans nos recherches :
IA generativa
January 7, 2025/8 min de leitura
Engenharia
December 3, 2025/11 min de leitura


