L'approche de l'humain dans la boucle (HITL) est une méthode d'AI et de machine learning dans laquelle des personnes participent activement à l'entraînement, à la supervision ou à la prise de décision d'un système afin d'en améliorer la précision, la sécurité et l'alignement éthique. La « boucle » décrit le cycle de base : un modèle génère un résultat, une personne l'examine ou le corrige, et ce retour d'information est réinjecté dans le système. Chaque correction apprend au modèle à se comporter davantage comme les utilisateurs l'attendent.
Le HITL ne se limite pas à une seule étape du développement. Il peut intervenir tout au long du cycle de vie de l'AI, de l'étiquetage des données d'entraînement et de la révision des résultats du modèle à l'approbation des actions des agents en production. Il est particulièrement important dans les cas limites (edge cases) et les situations à enjeux élevés où les erreurs ont de réelles conséquences : une AI de radiologie signalant un scanner, un agent d'AI s'apprêtant à modifier une base de données de production ou un système de détection des fraudes traitant une transaction inhabituelle.
Les sections ci-dessous expliquent comment le HITL fonctionne en pratique, comment il se compare à d'autres approches similaires, dans quels secteurs il est utilisé et dans quels cas il peut ne pas être adapté.
Les entreprises utilisent le HITL pour rendre les systèmes d'AI plus fiables et dignes de confiance, sans pour autant perdre la rapidité de l'automatisation. Les avantages se cumulent : un meilleur retour d'information humain permet d'obtenir de meilleures données d'entraînement, de meilleures données d'entraînement permettent d'obtenir de meilleurs modèles, et de meilleurs modèles nécessitent moins d'interventions.
Le HITL n'est pas une étape ou un point de contrôle unique. C'est un modèle de conception (design pattern) qui peut intervenir tout au long du cycle de vie de l'AI, de la préparation des données d'entraînement à la révision des résultats après le déploiement. Voici à quoi cela ressemble en pratique.
Tous les systèmes d'AI n'ont pas besoin d'une intervention humaine à chaque étape. La plupart des systèmes HITL matures utilisent des seuils de confiance et des scores de risque pour n'orienter qu'un sous-ensemble de décisions vers une révision humaine. C'est ce qui rend le HITL évolutif en pratique.
Ces trois termes décrivent différents niveaux d'implication humaine dans les systèmes d'AI, et il est facile de les confondre. La plus grande différence réside dans le degré d'implication des personnes dans les décisions et la rapidité avec laquelle elles peuvent intervenir en cas de besoin.
| Approche | Rôle de l'humain | Timing | Révision humaine requise ? | Exemple | Profil de risque type |
|---|---|---|---|---|---|
| Human in the loop (HITL) | Valide, corrige ou approuve activement les résultats de l'AI | Synchrone : se produit avant qu'une action ne soit entreprise | Oui, pour les décisions signalées ou sensibles | Un radiologue examinant la détection de tumeur par une AI avant la finalisation d'un diagnostic | Décisions à enjeux élevés et à faible volume, où la précision importe plus que la rapidité |
| Human on the loop (HOTL) | Surveille l'activité de l'AI et intervient en cas d'anomalie | Asynchrone : fonctionne en parallèle du système d'AI | Parfois, de manière exceptionnelle | Un analyste de la fraude surveillant un tableau de bord de blocages de transactions automatisés | Décisions à enjeux modérés et à volume plus élevé, où la rapidité et la surveillance sont toutes deux importantes |
| Human over the loop | Définit les politiques, audite les résultats et ajuste le système au fil du temps | Révision périodique plutôt qu'implication en temps réel | Non, pas au niveau des décisions individuelles | Une équipe de conformité examinant chaque trimestre les décisions d'octroi de crédit prises par l'AI | Systèmes à faible risque ou hautement automatisés dotés de contrôles de gouvernance stricts |
En pratique, de nombreux systèmes d'AI combinent ces trois approches. Les décisions présentant le risque le plus élevé peuvent nécessiter une approbation humaine directe via le HITL, tandis que la surveillance de routine se fait « on the loop » et la gouvernance « over the loop ». Le bon équilibre dépend des enjeux, de la taille du système et du niveau de jugement humain réellement requis par la tâche.
Le HITL et le RLHF sont étroitement liés, mais ils ne sont pas interchangeables.
Le HITL est un concept plus large. Il décrit tout système dans lequel des personnes aident à guider, réviser ou améliorer le comportement de l'AI. Cela peut se produire pendant l'entraînement, lors de la prise de décision en temps réel ou après le déploiement du modèle en production.
Le RLHF est une méthode spécifique pour y parvenir. Dans le cadre du RLHF, des personnes classent ou évaluent les réponses du modèle afin que le système apprenne quelles réponses sont les plus utiles, précises ou conformes aux attentes humaines. Ce retour d'information est ensuite utilisé pour aider à entraîner et à ajuster le modèle de langage de grande taille (LLM).
Par exemple, le HITL peut également inclure l'étiquetage des données d'entraînement, la révision des résultats du modèle en production, l'approbation des actions des agents avant qu'elles ne se produisent ou la réinjection des corrections humaines dans le système.
Pour faire simple : le RLHF se concentre spécifiquement sur l'amélioration de l'apprentissage d'un modèle pendant son entraînement, tandis que le HITL décrit le rôle plus large que jouent les humains dans la supervision et l'amélioration des systèmes d'AI tout au long de leur cycle de vie.
Le HITL est particulièrement courant lorsque les décisions de l'AI ont des conséquences réelles ou nécessitent un jugement, un contexte ou une expertise humaine. Dans de nombreux systèmes d'AI d'entreprise, les humains ne sont pas là pour remplacer l'AI. Ils interviennent lorsque le jugement est essentiel.
Selon l'étude de Databricks sur l'adoption de l'AI en entreprise, environ 40 % des principaux cas d'usage de l'AI concernent l'expérience client, et bon nombre de ces flux de travail reposent encore sur une forme de révision, d'escalade ou d'approbation humaine aux étapes critiques.
Le HITL est l'un des moyens les plus efficaces de rendre les systèmes d'AI plus précis, responsables et fiables, mais ce n'est pas un garde-fou magique. L'intervention humaine n'est utile que si le système est conçu de manière réfléchie. Sinon, le HITL peut créer des goulots d'étranglement, des décisions incohérentes ou l'illusion d'une surveillance sans réel contrôle.
Chaque étape de révision humaine ajoute du temps et de l'argent au flux de travail. Dans les systèmes à volume élevé, soumettre trop de décisions à des humains peut rapidement faire grimper les coûts et ralentir les processus sensibles au facteur temps.
C'est pourquoi les systèmes HITL matures s'appuient généralement sur des seuils de confiance et des scores de risque pour ne remonter que les décisions qui nécessitent réellement un jugement humain.
Lorsque des personnes examinent de longs flux de résultats d'AI pour la plupart corrects, l'attention commence naturellement à baisser. Les réviseurs peuvent commencer à approuver les résultats trop rapidement ou cesser complètement de les évaluer avec soin, un phénomène connu sous le nom de baisse de vigilance.
Dans certains systèmes, les réviseurs peuvent également devenir trop dépendants de l'AI elle-même, faisant progressivement confiance aux recommandations du modèle au lieu de les remettre activement en question. Lorsque cela se produit, la surveillance humaine perd de son sens, même si une personne est techniquement toujours « dans la boucle ».
Ce type de fatigue liée à la surveillance passive peut s'installer étonnamment vite, en particulier dans les flux de travail répétitifs. Les équipes atténuent souvent ce phénomène en faisant tourner les réviseurs, en limitant la taille des lots et en auditant les modèles d'approbation.
Les gens ne sont pas toujours d'accord entre eux, et un même réviseur peut prendre des décisions différentes dans des situations similaires. Sans directives claires et sans étalonnage régulier, les retours humains peuvent devenir incohérents ou bruités.
Cette incohérence est importante car les retours humains font souvent partie du signal d'entraînement. Si les retours eux-mêmes ne sont pas fiables, il devient beaucoup plus difficile d'améliorer le modèle de manière systématique.
Dans de nombreux systèmes HITL, « l'humain dans la boucle » peut être un sous-traitant, un annotateur ou un réviseur junior plutôt qu'un véritable expert du domaine. Cela soulève une question importante : qui est réellement qualifié pour prendre la décision ?
Une conception solide du HITL ne se limite pas à savoir si des humains sont impliqués, mais si les bonnes personnes le sont, y compris des experts du domaine ou, dans certains cas, les personnes les plus touchées par le résultat.
Une surveillance digne de ce nom ne fonctionne que si les réviseurs peuvent réellement évaluer ce que le modèle a produit et pourquoi. Si le système est trop opaque, trop complexe ou trop rapide pour être évalué en temps réel, l'approbation humaine peut se résumer à une simple formalité administrative.
C'est pourquoi l'explicabilité, la transparence et des critères d'escalade clairs sont des éléments essentiels des systèmes HITL efficaces, et non des options secondaires.
Les gens ont des biais, font des erreurs et essaient parfois de contourner le système. Les modèles d'AI apprennent de ces retours dans tous les cas. Dans le RLHF et d'autres systèmes HITL, des retours de mauvaise qualité peuvent progressivement rendre les modèles moins précis, moins équitables ou plus faciles à manipuler.
C'est pourquoi les programmes HITL solides comprennent une formation des réviseurs, des vérifications de concordance et des audits réguliers. La surveillance humaine ne fonctionne que si les retours eux-mêmes sont fiables.
Le HITL n'est pas toujours la bonne solution. Il existe des situations où l'ajout d'une révision humaine introduit plus de problèmes qu'il n'en résout.
L'essentiel est d'adapter l'intervention humaine aux enjeux, au volume de décisions et à la valeur réelle du jugement humain — plutôt que de systématiser la surveillance partout ou de faire entièrement confiance au modèle.
Le HITL devient encore plus important lorsque les systèmes d'AI dépassent la simple génération de contenu pour commencer à mener des actions au nom d'un utilisateur.
Un chatbot qui suggère un projet d'e-mail est une chose. Un agent AI qui envoie réellement l'e-mail, met à jour un dossier CRM ou déclenche un flux de travail en aval en est une autre. Dès lors que les systèmes d'AI peuvent mener des actions réelles au sein des flux de travail de l'entreprise, les enjeux deviennent beaucoup plus importants.
C'est pourquoi de nombreux agents AI sont conçus pour s'interrompre avant les actions à haut risque et demander d'abord l'approbation d'un humain. Par exemple, un agent peut rédiger un e-mail client, recommander la mise à jour d'une base de données ou préparer une demande d'achat, mais attendre une approbation avant d'agir.
Les actions à moindre risque peuvent souvent se dérouler automatiquement, le système affichant un résumé a posteriori au lieu de requérir une approbation à chaque fois.
Le HITL joue également un rôle important dans l'ensemble des applications basées sur les LLM. Les équipes peuvent examiner le contenu généré avant sa publication, classer ou évaluer les réponses du modèle pour le fine-tuning, ou orienter les conversations sensibles vers des agents humains lorsque le modèle n'est pas assez confiant pour répondre seul.
À mesure que les agents AI passent du stade de démo à de véritables environnements de production, des parcours d'escalade clairs et une surveillance humaine deviennent rapidement des exigences fondamentales pour l'AI d'entreprise.
Mettre le HITL en production ne se limite pas à ajouter une file d'attente de révision ou un bouton d'approbation. Les équipes ont besoin d'un moyen de capturer les retours humains à grande échelle, d'orienter les décisions vers les bonnes personnes, de suivre le comportement des modèles et de gouverner les données sensibles sans créer de flux de travail déconnectés ou de nouveaux silos de données.
Databricks prend cela en charge via Agent Bricks, qui inclut l'Agent Learning from Human Feedback (ALHF). Au lieu de s'appuyer sur de simples évaluations positives ou négatives, l'ALHF capture des retours plus riches en langage naturel de la part d'experts du domaine et les utilise pour améliorer le comportement des agents lors des interactions futures.
Les retours humains peuvent faire plus que corriger une seule réponse. Avec Agent Bricks, les équipes peuvent utiliser les retours pour améliorer le système d'agents dans son ensemble, notamment :
Dans une étude de cas sur l'Agent Bricks Knowledge Assistant, la capacité d'un agent de Q&A à suivre les instructions des experts est passée d'environ 12 % à 80 % en utilisant seulement 32 retours humains.
Databricks traite également chaque interaction comme un enregistrement gouverné et traçable. Les traces de bout en bout capturent la manière dont les réponses ont été générées, tandis que Unity Catalog fournit la couche de gouvernance nécessaire pour gérer les données sensibles et le comportement des agents.
Cela offre aux équipes une visibilité centralisée sur :
Sans visibilité, les équipes ne peuvent pas savoir si les retours humains améliorent réellement le système. Au lieu de traiter la supervision comme un processus manuel déconnecté, Databricks aide à intégrer HITL directement au système, afin que les entreprises puissent améliorer les modèles, maintenir la conformité et faire confiance aux systèmes AI en production.
Quelle est la différence entre l'humain dans la boucle (human in the loop) et l'humain en surveillance (human on the loop) ?
L'humain dans la boucle (HITL) signifie que l'AI s'interrompt et attend qu'une personne examine ou approuve une décision avant d'agir. L'humain en surveillance (HOTL) signifie que l'AI agit de manière autonome pendant qu'une personne surveille le système et n'intervient que si un problème survient.
En résumé, le HITL offre un contrôle plus strict. Le HOTL est conçu pour monter en charge.
Quel est un exemple d'humain dans la boucle ?
Un radiologue qui examine la détection de tumeurs par un système AI avant de confirmer un diagnostic est un exemple classique de HITL.
Dans l'AI d'entreprise, un autre exemple courant est un agent AI qui s'interrompt avant d'envoyer un e-mail externe, de mettre à jour un enregistrement de production ou de déclencher un workflow, afin qu'une personne puisse d'abord approuver l'action.
Le concept d'humain dans la boucle est-il identique au RLHF ?
Non. Le HITL est un concept plus large. Il décrit des systèmes dans lesquels des personnes aident à façonner le comportement de l'AI.
L'apprentissage par renforcement à partir de commentaires humains (RLHF) est une technique spécifique au sein de cette catégorie plus large. Dans le RLHF, des personnes classent ou évaluent les réponses du modèle pendant l'entraînement pour aider à affiner le modèle.
Chaque système RLHF est une forme de HITL, mais le HITL inclut également des tâches telles que l'étiquetage des données, la révision des résultats et l'approbation des actions des agents.
Quand faut-il utiliser l'humain dans la boucle ?
Le HITL est particulièrement utile lorsque les décisions comportent des enjeux importants, que les erreurs ont des conséquences réelles ou que les systèmes AI rencontrent des situations pour lesquelles ils n'ont pas été entraînés.
Il est également important dans les secteurs réglementés où les entreprises ont besoin d'une supervision humaine documentée.
Mais le HITL n'est pas toujours adapté. Pour les tâches rapides, à faible risque ou à très grand volume, des systèmes entièrement automatisés peuvent être plus judicieux.
Comment l'humain dans la boucle s'applique-t-il aux agents AI ?
Les agents AI augmentent les enjeux car ils peuvent entreprendre des actions réelles au sein des systèmes d'entreprise, comme envoyer des messages, mettre à jour des bases de données ou déclencher automatiquement des workflows.
C'est pourquoi de nombreux agents sont conçus pour s'interrompre avant des actions à fort impact et demander d'abord l'approbation d'un humain.
À mesure que les agents AI passent du stade de démonstration à des environnements de production réels, des parcours d'escalade clairs et une supervision significative deviennent rapidement des pratiques courantes. Databricks Agent Bricks inclut l'apprentissage des agents à partir de commentaires humains (ALHF) pour aider les entreprises à créer des boucles de rétroaction évolutives pour les agents et applications AI.
Le HITL aide les équipes à maintenir la précision, la fiabilité et la responsabilité de l'AI à mesure que les systèmes passent du stade de démonstration à des environnements de production réels. Il fonctionne de manière optimale lorsque les retours humains, la gouvernance et l'évaluation résident tous au sein de la même plateforme, plutôt que dans des outils et des workflows déconnectés.
Découvrez comment Agent Bricks utilise les retours humains et l'évaluation continue pour créer des agents AI de haute qualité sur vos données d'entreprise.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.