Qu'est-ce que l'humain dans la boucle (HITL) ?

L'HITL doit être basé sur le risque, et non systématique. Les équipes tirent le meilleur parti de la révision humaine lorsqu'elle est réservée aux décisions à fort impact, incertaines ou réglementées.
Les agents AI rendent la validation humaine encore plus importante. Lorsque les agents peuvent mettre à jour des enregistrements, envoyer des messages ou déclencher des workflows, les équipes ont besoin de processus d'escalade clairs avant que les actions ne se produisent.
Les retours humains doivent devenir des données opérationnelles. La véritable valeur de l'HITL réside dans la capture, la gouvernance et l'utilisation des retours pour améliorer le comportement des agents au fil du temps, plutôt que de les laisser dans des workflows de révision déconnectés.

L'approche de l'humain dans la boucle (HITL) est une méthode d'AI et de machine learning dans laquelle des personnes participent activement à l'entraînement, à la supervision ou à la prise de décision d'un système afin d'en améliorer la précision, la sécurité et l'alignement éthique. La « boucle » décrit le cycle de base : un modèle génère un résultat, une personne l'examine ou le corrige, et ce retour d'information est réinjecté dans le système. Chaque correction apprend au modèle à se comporter davantage comme les utilisateurs l'attendent.

Le HITL ne se limite pas à une seule étape du développement. Il peut intervenir tout au long du cycle de vie de l'AI, de l'étiquetage des données d'entraînement et de la révision des résultats du modèle à l'approbation des actions des agents en production. Il est particulièrement important dans les cas limites (edge cases) et les situations à enjeux élevés où les erreurs ont de réelles conséquences : une AI de radiologie signalant un scanner, un agent d'AI s'apprêtant à modifier une base de données de production ou un système de détection des fraudes traitant une transaction inhabituelle.

Les sections ci-dessous expliquent comment le HITL fonctionne en pratique, comment il se compare à d'autres approches similaires, dans quels secteurs il est utilisé et dans quels cas il peut ne pas être adapté.

Pourquoi les équipes utilisent le HITL : précision, confiance et conformité dans une seule boucle

Les entreprises utilisent le HITL pour rendre les systèmes d'AI plus fiables et dignes de confiance, sans pour autant perdre la rapidité de l'automatisation. Les avantages se cumulent : un meilleur retour d'information humain permet d'obtenir de meilleures données d'entraînement, de meilleures données d'entraînement permettent d'obtenir de meilleurs modèles, et de meilleurs modèles nécessitent moins d'interventions.

Une plus grande précision. Les réviseurs humains détectent les erreurs que le modèle ne voit pas, en particulier lorsque le système rencontre des données d'entrée inhabituelles ou des situations pour lesquelles les données d'entraînement ne l'ont pas entièrement préparé.
Une meilleure gestion des cas limites. Les humains peuvent faire preuve de jugement, de discernement et de bon sens dans des situations où le modèle peut être incertain ou confronté à un cas pour lequel il n'a pas été entraîné.
Réduction des biais. La supervision humaine peut aider les équipes à identifier et à corriger les résultats biaisés, préjudiciables ou faussés avant qu'ils n'atteignent les utilisateurs ou les systèmes en aval.
Sécurité et alignement éthique. Les points de contrôle humains empêchent la publication de résultats nuisibles, inappropriés ou non conformes.
Conformité réglementaire. De nombreuses nouvelles réglementations sur l'AI exigent désormais une supervision humaine significative pour les systèmes à haut risque. Par exemple, l'article 14 de l'EU AI Act impose que les systèmes d'AI à haut risque permettent une surveillance et une intervention humaines, tandis que le NIST AI Risk Management Framework met l'accent sur la supervision humaine dans les applications à fortes conséquences.
Une confiance et une adoption accrues. Les utilisateurs sont plus enclins à faire confiance aux systèmes d'AI s'ils savent qu'un humain peut les vérifier ou les contourner.
Amélioration continue. Chaque correction devient une nouvelle opportunité d'apprentissage, ce qui permet à un système HITL bien conçu not seulement de détecter les erreurs, mais aussi d'éliminer des catégories entières d'anomalies au fil du temps.

Fonctionnement de la boucle de rétroaction : le HITL en pratique

Le HITL n'est pas une étape ou un point de contrôle unique. C'est un modèle de conception (design pattern) qui peut intervenir tout au long du cycle de vie de l'AI, de la préparation des données d'entraînement à la révision des résultats après le déploiement. Voici à quoi cela ressemble en pratique.

Étiquetage des données. Des personnes étiquettent ou annotent des données brutes telles que des images, du texte et de l'audio afin que le modèle dispose d'exemples précis pour apprendre. Ces décisions façonnent directement les performances du modèle.
Entraînement du modèle. Des humains examinent et corrigent les résultats du modèle pendant l'entraînement pour aider le système à comprendre ce qui est attendu. Cela inclut souvent l'apprentissage par renforcement à partir de commentaires humains (RLHF), où les réviseurs classent ou évaluent les réponses pour guider le modèle vers de meilleures solutions.
Révision de l'inférence. Une fois qu'un modèle est en production, des personnes peuvent examiner certains résultats avant qu'une action ne soit entreprise. Cela se produit généralement lorsque les prédictions sont incertaines, inhabituelles ou liées à des décisions à haut risque.
Escalade et contournement. Lorsqu'un modèle franchit un seuil de risque défini, le système peut confier la décision à une personne qui l'examine, l'approuve, la rejette ou la corrige avant que le système ne poursuive.
Retour d'information continu. Le retour d'information humain ne s'arrête pas après le déploiement. Les corrections et les révisions peuvent être réinjectées dans le système, ce qui aide les équipes à réentraîner ou à ajuster le modèle (fine-tuning) afin que ses performances s'améliorent au lieu de dériver.

Tous les systèmes d'AI n'ont pas besoin d'une intervention humaine à chaque étape. La plupart des systèmes HITL matures utilisent des seuils de confiance et des scores de risque pour n'orienter qu'un sous-ensemble de décisions vers une révision humaine. C'est ce qui rend le HITL évolutif en pratique.

In the loop, on the loop, over the loop : quelle est la différence ?

Ces trois termes décrivent différents niveaux d'implication humaine dans les systèmes d'AI, et il est facile de les confondre. La plus grande différence réside dans le degré d'implication des personnes dans les décisions et la rapidité avec laquelle elles peuvent intervenir en cas de besoin.

Approche	Rôle de l'humain	Timing	Révision humaine requise ?	Exemple	Profil de risque type
Human in the loop (HITL)	Valide, corrige ou approuve activement les résultats de l'AI	Synchrone : se produit avant qu'une action ne soit entreprise	Oui, pour les décisions signalées ou sensibles	Un radiologue examinant la détection de tumeur par une AI avant la finalisation d'un diagnostic	Décisions à enjeux élevés et à faible volume, où la précision importe plus que la rapidité
Human on the loop (HOTL)	Surveille l'activité de l'AI et intervient en cas d'anomalie	Asynchrone : fonctionne en parallèle du système d'AI	Parfois, de manière exceptionnelle	Un analyste de la fraude surveillant un tableau de bord de blocages de transactions automatisés	Décisions à enjeux modérés et à volume plus élevé, où la rapidité et la surveillance sont toutes deux importantes
Human over the loop	Définit les politiques, audite les résultats et ajuste le système au fil du temps	Révision périodique plutôt qu'implication en temps réel	Non, pas au niveau des décisions individuelles	Une équipe de conformité examinant chaque trimestre les décisions d'octroi de crédit prises par l'AI	Systèmes à faible risque ou hautement automatisés dotés de contrôles de gouvernance stricts

En pratique, de nombreux systèmes d'AI combinent ces trois approches. Les décisions présentant le risque le plus élevé peuvent nécessiter une approbation humaine directe via le HITL, tandis que la surveillance de routine se fait « on the loop » et la gouvernance « over the loop ». Le bon équilibre dépend des enjeux, de la taille du système et du niveau de jugement humain réellement requis par la tâche.

HITL vs RLHF : concepts proches, rôles différents

Le HITL et le RLHF sont étroitement liés, mais ils ne sont pas interchangeables.

Le HITL est un concept plus large. Il décrit tout système dans lequel des personnes aident à guider, réviser ou améliorer le comportement de l'AI. Cela peut se produire pendant l'entraînement, lors de la prise de décision en temps réel ou après le déploiement du modèle en production.

Le RLHF est une méthode spécifique pour y parvenir. Dans le cadre du RLHF, des personnes classent ou évaluent les réponses du modèle afin que le système apprenne quelles réponses sont les plus utiles, précises ou conformes aux attentes humaines. Ce retour d'information est ensuite utilisé pour aider à entraîner et à ajuster le modèle de langage de grande taille (LLM).

Par exemple, le HITL peut également inclure l'étiquetage des données d'entraînement, la révision des résultats du modèle en production, l'approbation des actions des agents avant qu'elles ne se produisent ou la réinjection des corrections humaines dans le système.

Pour faire simple : le RLHF se concentre spécifiquement sur l'amélioration de l'apprentissage d'un modèle pendant son entraînement, tandis que le HITL décrit le rôle plus large que jouent les humains dans la supervision et l'amélioration des systèmes d'AI tout au long de leur cycle de vie.

Où intervient le HITL : exemples concrets dans différents secteurs

Le HITL est particulièrement courant lorsque les décisions de l'AI ont des conséquences réelles ou nécessitent un jugement, un contexte ou une expertise humaine. Dans de nombreux systèmes d'AI d'entreprise, les humains ne sont pas là pour remplacer l'AI. Ils interviennent lorsque le jugement est essentiel.

Selon l'étude de Databricks sur l'adoption de l'AI en entreprise, environ 40 % des principaux cas d'usage de l'AI concernent l'expérience client, et bon nombre de ces flux de travail reposent encore sur une forme de révision, d'escalade ou d'approbation humaine aux étapes critiques.

Imagerie médicale. Les radiologues examinent et confirment les anomalies signalées par l'AI sur les scanners avant la finalisation d'un diagnostic.
Modération de contenu. Des réviseurs humains interviennent lorsque les publications sont trop nuancées ou ambiguës pour que l'AI puisse les évaluer avec certitude, en particulier en ce qui concerne les discours de haine, la désinformation ou les images sensibles où le contexte peut totalement changer le sens.
Véhicules autonomes. Les conducteurs de sécurité ou les opérateurs à distance prennent le relais lorsque le véhicule rencontre une situation qu'il ne peut pas gérer seul en toute confiance.
Services financiers. Les analystes examinent les approbations de prêts, les alertes de fraude ou les cas de blanchiment d'argent lorsque le modèle n'est pas assez confiant pour prendre la décision de manière indépendante.
Centres de contact. Les agents humains interviennent lorsque les chatbots AI ne peuvent pas résoudre un problème client ou lorsqu'une conversation devient particulièrement sensible ou complexe.
Applications d'AI générative. Les éditeurs examinent le contenu généré par AI avant sa publication, tandis que les évaluateurs notent les résultats pour aider à améliorer les réponses futures. Voir l'AI générative pour en savoir plus sur le fonctionnement de ces systèmes.
Agents AI et utilisation d'outils. Pour les agents AI capables de mener des actions telles que l'envoi d'e-mails, la mise à jour de dossiers ou l'exécution de code, les humains approuvent souvent les actions à fort impact avant qu'elles ne se produisent réellement.
Traitement de documents. Des spécialistes vérifient les données extraites des contrats, des réclamations ou des factures lorsque le score de confiance d'un modèle tombe en dessous d'un seuil défini. Voir le traitement intelligent de documents pour un aperçu plus approfondi de ce cas d'usage.

Le HITL n'est pas une garantie : les limites que chaque équipe doit connaître

Le HITL est l'un des moyens les plus efficaces de rendre les systèmes d'AI plus précis, responsables et fiables, mais ce n'est pas un garde-fou magique. L'intervention humaine n'est utile que si le système est conçu de manière réfléchie. Sinon, le HITL peut créer des goulots d'étranglement, des décisions incohérentes ou l'illusion d'une surveillance sans réel contrôle.

Latence et coût : chaque étape de révision ajoute de la friction

Chaque étape de révision humaine ajoute du temps et de l'argent au flux de travail. Dans les systèmes à volume élevé, soumettre trop de décisions à des humains peut rapidement faire grimper les coûts et ralentir les processus sensibles au facteur temps.

C'est pourquoi les systèmes HITL matures s'appuient généralement sur des seuils de confiance et des scores de risque pour ne remonter que les décisions qui nécessitent réellement un jugement humain.

Baisse de vigilance : pourquoi les réviseurs finissent par ne plus prêter attention

Lorsque des personnes examinent de longs flux de résultats d'AI pour la plupart corrects, l'attention commence naturellement à baisser. Les réviseurs peuvent commencer à approuver les résultats trop rapidement ou cesser complètement de les évaluer avec soin, un phénomène connu sous le nom de baisse de vigilance.

Dans certains systèmes, les réviseurs peuvent également devenir trop dépendants de l'AI elle-même, faisant progressivement confiance aux recommandations du modèle au lieu de les remettre activement en question. Lorsque cela se produit, la surveillance humaine perd de son sens, même si une personne est techniquement toujours « dans la boucle ».

Ce type de fatigue liée à la surveillance passive peut s'installer étonnamment vite, en particulier dans les flux de travail répétitifs. Les équipes atténuent souvent ce phénomène en faisant tourner les réviseurs, en limitant la taille des lots et en auditant les modèles d'approbation.

Le jugement humain n'est pas toujours cohérent — et cela compte

Les gens ne sont pas toujours d'accord entre eux, et un même réviseur peut prendre des décisions différentes dans des situations similaires. Sans directives claires et sans étalonnage régulier, les retours humains peuvent devenir incohérents ou bruités.

Cette incohérence est importante car les retours humains font souvent partie du signal d'entraînement. Si les retours eux-mêmes ne sont pas fiables, il devient beaucoup plus difficile d'améliorer le modèle de manière systématique.

Qui est considéré comme « l'humain » ?

Dans de nombreux systèmes HITL, « l'humain dans la boucle » peut être un sous-traitant, un annotateur ou un réviseur junior plutôt qu'un véritable expert du domaine. Cela soulève une question importante : qui est réellement qualifié pour prendre la décision ?

Une conception solide du HITL ne se limite pas à savoir si des humains sont impliqués, mais si les bonnes personnes le sont, y compris des experts du domaine ou, dans certains cas, les personnes les plus touchées par le résultat.

Si les réviseurs ne comprennent pas l'AI, la surveillance devient purement formelle

Une surveillance digne de ce nom ne fonctionne que si les réviseurs peuvent réellement évaluer ce que le modèle a produit et pourquoi. Si le système est trop opaque, trop complexe ou trop rapide pour être évalué en temps réel, l'approbation humaine peut se résumer à une simple formalité administrative.

C'est pourquoi l'explicabilité, la transparence et des critères d'escalade clairs sont des éléments essentiels des systèmes HITL efficaces, et non des options secondaires.

Les retours humains peuvent être erronés

Les gens ont des biais, font des erreurs et essaient parfois de contourner le système. Les modèles d'AI apprennent de ces retours dans tous les cas. Dans le RLHF et d'autres systèmes HITL, des retours de mauvaise qualité peuvent progressivement rendre les modèles moins précis, moins équitables ou plus faciles à manipuler.

C'est pourquoi les programmes HITL solides comprennent une formation des réviseurs, des vérifications de concordance et des audits réguliers. La surveillance humaine ne fonctionne que si les retours eux-mêmes sont fiables.

Quand exclure les humains de la boucle

Le HITL n'est pas toujours la bonne solution. Il existe des situations où l'ajout d'une révision humaine introduit plus de problèmes qu'il n'en résout.

Systèmes sensibles à la latence. Le trading à haute fréquence, les boucles de contrôle de conduite autonome et les systèmes de scoring de fraude en temps réel ne peuvent souvent pas s'interrompre pour une révision humaine à chaque décision.
Tâches à faible risque et volume élevé. Lorsque le coût d'une erreur individuelle est faible et que les coûts de révision sont élevés, une automatisation complète avec des audits périodiques est souvent plus pratique.
Tâches où le modèle surpasse les réviseurs. Dans des tâches ciblées et bien définies, les modèles peuvent systématiquement surpasser les réviseurs humains. Dans ces cas, l'ajout d'humains peut introduire de l'incohérence au lieu de corriger les erreurs.
Raisonnement de l'AI impossible à réviser. Si les humains ne peuvent pas évaluer de manière réaliste le résultat parce que le système est trop complexe ou fonctionne trop rapidement, le HITL risque de devenir une simple mise en scène de la responsabilité plutôt qu'une surveillance significative.

L'essentiel est d'adapter l'intervention humaine aux enjeux, au volume de décisions et à la valeur réelle du jugement humain — plutôt que de systématiser la surveillance partout ou de faire entièrement confiance au modèle.

Passer à la vitesse supérieure : le HITL pour les agents AI et les LLM

Le HITL devient encore plus important lorsque les systèmes d'AI dépassent la simple génération de contenu pour commencer à mener des actions au nom d'un utilisateur.

Un chatbot qui suggère un projet d'e-mail est une chose. Un agent AI qui envoie réellement l'e-mail, met à jour un dossier CRM ou déclenche un flux de travail en aval en est une autre. Dès lors que les systèmes d'AI peuvent mener des actions réelles au sein des flux de travail de l'entreprise, les enjeux deviennent beaucoup plus importants.

C'est pourquoi de nombreux agents AI sont conçus pour s'interrompre avant les actions à haut risque et demander d'abord l'approbation d'un humain. Par exemple, un agent peut rédiger un e-mail client, recommander la mise à jour d'une base de données ou préparer une demande d'achat, mais attendre une approbation avant d'agir.

Les actions à moindre risque peuvent souvent se dérouler automatiquement, le système affichant un résumé a posteriori au lieu de requérir une approbation à chaque fois.

Le HITL joue également un rôle important dans l'ensemble des applications basées sur les LLM. Les équipes peuvent examiner le contenu généré avant sa publication, classer ou évaluer les réponses du modèle pour le fine-tuning, ou orienter les conversations sensibles vers des agents humains lorsque le modèle n'est pas assez confiant pour répondre seul.

À mesure que les agents AI passent du stade de démo à de véritables environnements de production, des parcours d'escalade clairs et une surveillance humaine deviennent rapidement des exigences fondamentales pour l'AI d'entreprise.

Comment Databricks met le HITL en production

Mettre le HITL en production ne se limite pas à ajouter une file d'attente de révision ou un bouton d'approbation. Les équipes ont besoin d'un moyen de capturer les retours humains à grande échelle, d'orienter les décisions vers les bonnes personnes, de suivre le comportement des modèles et de gouverner les données sensibles sans créer de flux de travail déconnectés ou de nouveaux silos de données.

Databricks prend cela en charge via Agent Bricks, qui inclut l'Agent Learning from Human Feedback (ALHF). Au lieu de s'appuyer sur de simples évaluations positives ou négatives, l'ALHF capture des retours plus riches en langage naturel de la part d'experts du domaine et les utilise pour améliorer le comportement des agents lors des interactions futures.

Transformer les retours d'experts en améliorations du système

Les retours humains peuvent faire plus que corriger une seule réponse. Avec Agent Bricks, les équipes peuvent utiliser les retours pour améliorer le système d'agents dans son ensemble, notamment :

Les stratégies de récupération
La logique des prompts
La sélection des outils
La façon dont les agents récupèrent et utilisent les informations des bases de données vectorielles

Dans une étude de cas sur l'Agent Bricks Knowledge Assistant, la capacité d'un agent de Q&A à suivre les instructions des experts est passée d'environ 12 % à 80 % en utilisant seulement 32 retours humains.

Rendre chaque interaction gouvernée et traçable

Databricks traite également chaque interaction comme un enregistrement gouverné et traçable. Les traces de bout en bout capturent la manière dont les réponses ont été générées, tandis que Unity Catalog fournit la couche de gouvernance nécessaire pour gérer les données sensibles et le comportement des agents.

Cela offre aux équipes une visibilité centralisée sur :

Le contrôle d'accès
Le lignage au niveau des colonnes, depuis les tables sources jusqu'aux résultats finaux, en passant par les appels d'outils des agents
Les journaux d'audit qui facilitent les contrôles réglementaires
La provenance des données
Le comportement des modèles
Qui a accès à quoi

Intégrer HITL au workflow de production

Sans visibilité, les équipes ne peuvent pas savoir si les retours humains améliorent réellement le système. Au lieu de traiter la supervision comme un processus manuel déconnecté, Databricks aide à intégrer HITL directement au système, afin que les entreprises puissent améliorer les modèles, maintenir la conformité et faire confiance aux systèmes AI en production.

Foire aux questions

Quelle est la différence entre l'humain dans la boucle (human in the loop) et l'humain en surveillance (human on the loop) ?

L'humain dans la boucle (HITL) signifie que l'AI s'interrompt et attend qu'une personne examine ou approuve une décision avant d'agir. L'humain en surveillance (HOTL) signifie que l'AI agit de manière autonome pendant qu'une personne surveille le système et n'intervient que si un problème survient.

En résumé, le HITL offre un contrôle plus strict. Le HOTL est conçu pour monter en charge.

Quel est un exemple d'humain dans la boucle ?

Un radiologue qui examine la détection de tumeurs par un système AI avant de confirmer un diagnostic est un exemple classique de HITL.

Dans l'AI d'entreprise, un autre exemple courant est un agent AI qui s'interrompt avant d'envoyer un e-mail externe, de mettre à jour un enregistrement de production ou de déclencher un workflow, afin qu'une personne puisse d'abord approuver l'action.

Le concept d'humain dans la boucle est-il identique au RLHF ?

Non. Le HITL est un concept plus large. Il décrit des systèmes dans lesquels des personnes aident à façonner le comportement de l'AI.

L'apprentissage par renforcement à partir de commentaires humains (RLHF) est une technique spécifique au sein de cette catégorie plus large. Dans le RLHF, des personnes classent ou évaluent les réponses du modèle pendant l'entraînement pour aider à affiner le modèle.

Chaque système RLHF est une forme de HITL, mais le HITL inclut également des tâches telles que l'étiquetage des données, la révision des résultats et l'approbation des actions des agents.

Quand faut-il utiliser l'humain dans la boucle ?

Le HITL est particulièrement utile lorsque les décisions comportent des enjeux importants, que les erreurs ont des conséquences réelles ou que les systèmes AI rencontrent des situations pour lesquelles ils n'ont pas été entraînés.

Il est également important dans les secteurs réglementés où les entreprises ont besoin d'une supervision humaine documentée.

Mais le HITL n'est pas toujours adapté. Pour les tâches rapides, à faible risque ou à très grand volume, des systèmes entièrement automatisés peuvent être plus judicieux.

Comment l'humain dans la boucle s'applique-t-il aux agents AI ?

Les agents AI augmentent les enjeux car ils peuvent entreprendre des actions réelles au sein des systèmes d'entreprise, comme envoyer des messages, mettre à jour des bases de données ou déclencher automatiquement des workflows.

C'est pourquoi de nombreux agents sont conçus pour s'interrompre avant des actions à fort impact et demander d'abord l'approbation d'un humain.

À mesure que les agents AI passent du stade de démonstration à des environnements de production réels, des parcours d'escalade clairs et une supervision significative deviennent rapidement des pratiques courantes. Databricks Agent Bricks inclut l'apprentissage des agents à partir de commentaires humains (ALHF) pour aider les entreprises à créer des boucles de rétroaction évolutives pour les agents et applications AI.

Démarrez avec une AI gouvernée et alignée sur l'humain sur Databricks

Le HITL aide les équipes à maintenir la précision, la fiabilité et la responsabilité de l'AI à mesure que les systèmes passent du stade de démonstration à des environnements de production réels. Il fonctionne de manière optimale lorsque les retours humains, la gouvernance et l'évaluation résident tous au sein de la même plateforme, plutôt que dans des outils et des workflows déconnectés.

Découvrez comment Agent Bricks utilise les retours humains et l'évaluation continue pour créer des agents AI de haute qualité sur vos données d'entreprise.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs