Direkt zum Hauptinhalt

Was ist Human-in-the-Loop (HITL)?

von Databricks-Mitarbeiter

  • HITL sollte risikobasiert sein und nicht überall eingesetzt werden. Teams profitieren am meisten, wenn menschliche Überprüfungen für kritische, unsichere oder regulierte Entscheidungen reserviert sind.
  • AI-Agenten machen die menschliche Freigabe noch wichtiger. Wenn Agenten Datensätze aktualisieren, Nachrichten senden oder Workflows auslösen können, benötigen Teams klare Eskalationspfade, bevor Aktionen ausgeführt werden.
  • Menschliches Feedback muss zu operativen Daten werden. Der wahre Wert von HITL entsteht, wenn Feedback erfasst, verwaltet und genutzt wird, um das Verhalten der Agenten im Laufe der Zeit zu verbessern, anstatt in isolierten Überprüfungs-Workflows zu verbleiben.

Human in the Loop (HITL) ist ein AI- und Machine-Learning-Ansatz, bei dem Menschen aktiv an der Schulung, Überwachung oder Entscheidungsfindung eines Systems beteiligt sind, um Genauigkeit, Sicherheit und ethische Ausrichtung zu verbessern. Der „Loop“ (Regelkreis) beschreibt den grundlegenden Zyklus: Ein Modell generiert ein Ergebnis, eine Person überprüft oder korrigiert es, und dieses Feedback fließt zurück in das System. Jede Korrektur lehrt das Modell, sich mehr so zu verhalten, wie Menschen es erwarten.

HITL ist nicht auf eine einzige Entwicklungsphase beschränkt. Es kann sich über den gesamten AI-Lebenszyklus erstrecken – von der Kennzeichnung von Trainingsdaten und der Überprüfung von Modellergebnissen bis hin zur Genehmigung von Agenten-Aktionen in der Produktion. Am wichtigsten ist es bei Edge Cases (Grenzfällen) und in Situationen mit hohem Risiko, in denen Fehler schwerwiegende Folgen haben können – etwa wenn eine Radiologie-AI einen Scan markiert, ein AI-Agent eine Produktionsdatenbank ändern möchte oder ein Betrugserkennungssystem eine ungewöhnliche Transaktion verarbeitet.

Die folgenden Abschnitte beschreiben, wie HITL in der Praxis funktioniert, wie es im Vergleich zu verwandten Ansätzen abschneidet, wo es in verschiedenen Branchen eingesetzt wird und wann es eventuell nicht die richtige Wahl ist.

Warum Teams auf HITL setzen: Genauigkeit, Vertrauen und Compliance in einem Regelkreis

Unternehmen nutzen HITL, um AI-Systeme zuverlässiger und vertrauenswürdiger zu machen, ohne die Geschwindigkeit der Automatisierung zu verlieren. Die Vorteile verstärken sich gegenseitig: Besseres menschliches Feedback führt zu besseren Trainingsdaten, bessere Trainingsdaten führen zu besseren Modellen und bessere Modelle erfordern weniger Eingriffe.

  • Höhere Genauigkeit. Menschliche Prüfer erkennen Fehler, die das Modell übersieht, insbesondere wenn das System auf unbekannte Eingaben oder Situationen stößt, auf die es durch die Trainingsdaten nicht vollständig vorbereitet wurde.
  • Bessere Handhabung von Edge Cases. Menschen können Urteilsvermögen, Kontext und gesunden Menschenverstand in Situationen einbringen, in denen das Modell unsicher ist oder mit etwas konfrontiert wird, für das es nicht trainiert wurde.
  • Reduzierung von Bias (Verzerrungen). Menschliche Aufsicht kann Teams dabei helfen, voreingenommene, schädliche oder verzerrte Ergebnisse zu erkennen und zu korrigieren, bevor sie Nutzer oder nachgelagerte Systeme erreichen.
  • Sicherheit und ethische Ausrichtung. Menschliche Kontrollpunkte verhindern, dass schädliche, unangemessene oder nicht richtlinienkonforme Ergebnisse live gehen.
  • Einhaltung gesetzlicher Vorschriften (Compliance). Viele neue AI-Vorschriften fordern mittlerweile eine wirksame menschliche Aufsicht für Systeme mit höherem Risiko. Beispielsweise verlangt Artikel 14 des EU AI Act, dass AI-Systeme mit hohem Risiko eine menschliche Überwachung und Intervention ermöglichen, während das NIST AI Risk Management Framework die menschliche Aufsicht bei Anwendungen mit schwerwiegenden Folgen betont.
  • Größeres Vertrauen und höhere Akzeptanz. Menschen sind eher bereit, sich auf AI-Systeme zu verlassen, wenn sie wissen, dass ein Mensch diese überprüfen oder überstimmen kann.
  • Kontinuierliche Verbesserung. Jede Korrektur wird zu einer weiteren Lernmöglichkeit. Dies hilft einem gut konzipierten HITL-System, Fehler nicht nur abzufangen, sondern im Laufe der Zeit ganze Fehlerkategorien zu eliminieren.

Der Feedback-Loop erklärt: So funktioniert HITL in der Praxis

HITL ist kein einzelner Schritt oder Kontrollpunkt. Es ist ein Entwurfsmuster (Design Pattern), das sich durch den gesamten AI-Lebenszyklus ziehen kann – von der Vorbereitung der Trainingsdaten bis zur Überprüfung der Ergebnisse nach dem Deployment. Und so sieht das in der Praxis aus.

  1. Daten-Labeling. Menschen kennzeichnen oder annotieren Rohdaten wie Bilder, Text und Audio, damit das Modell präzise Beispiele zum Lernen hat. Diese Entscheidungen prägen direkt die Modellleistung.
  2. Modelltraining. Menschen überprüfen und korrigieren Modellergebnisse während des Trainings, um dem System zu vermitteln, wie ein „gutes“ Ergebnis aussieht. Dies umfasst häufig Reinforcement Learning from Human Feedback (RLHF), bei dem Prüfer Antworten bewerten oder in eine Rangfolge bringen, um das Modell zu besseren Antworten zu führen.
  3. Inferenz-Überprüfung. Sobald ein Modell live ist, können Menschen bestimmte Ergebnisse überprüfen, bevor Maßnahmen ergriffen werden. Dies geschieht in der Regel, wenn Vorhersagen unsicher oder ungewöhnlich sind oder mit Entscheidungen mit höherem Risiko zusammenhängen.
  4. Eskalation und Overriding (Überstimmen). Wenn ein Modell eine definierte Risikoschwelle überschreitet, kann das System die Entscheidung an eine Person übergeben, die sie überprüft, genehmigt, ablehnt oder korrigiert, bevor das System fortfährt.
  5. Kontinuierliches Feedback. Menschliches Feedback hört nach dem Deployment nicht auf. Korrekturen und Überprüfungen können zurück in das System fließen. Dies hilft Teams dabei, das Modell neu zu trainieren oder feinzutunen (Fine-Tuning), damit sich die Leistung verbessert, anstatt abzuweichen (Drift).

Nicht alle AI-Systeme benötigen in jeder Phase menschliche Unterstützung. Die meisten ausgereiften HITL-Systeme nutzen Konfidenzschwellenwerte und Risikobewertungen, um nur eine Teilmenge der Entscheidungen an menschliche Prüfer weiterzuleiten. Das ist es, was HITL in der Praxis skalierbar macht.

In the Loop, On the Loop, Over the Loop: Was ist der Unterschied?

Diese drei Begriffe beschreiben verschiedene Stufen der menschlichen Beteiligung an AI-Systemen und können leicht verwechselt werden. Der größte Unterschied liegt darin, wie eng Menschen in Entscheidungen eingebunden sind und wie schnell sie bei Bedarf eingreifen können.

AnsatzMenschliche RolleTimingMenschliche Überprüfung erforderlich?BeispielTypisches Risikoprofil
Human in the Loop (HITL)Validiert, korrigiert oder genehmigt AI-Ergebnisse aktivSynchron: erfolgt vor der Ausführung einer AktionJa, bei markierten oder sensiblen EntscheidungenEin Radiologe überprüft die Tumorerkennung einer AI, bevor eine Diagnose gestellt wirdEntscheidungen mit hohem Risiko und geringerem Volumen, bei denen Genauigkeit wichtiger ist als Geschwindigkeit
Human on the Loop (HOTL)Überwacht AI-Aktivitäten und greift ein, wenn etwas fehlerhaft erscheintAsynchron: läuft parallel zum AI-SystemManchmal, ausnahmsweiseEin Betrugsanalyst überwacht ein Dashboard mit automatisierten TransaktionssperrenEntscheidungen mit mittlerem Risiko und höherem Volumen, bei denen sowohl Geschwindigkeit als auch Aufsicht wichtig sind
Human over the LoopLegt Richtlinien fest, prüft Ergebnisse und passt das System im Laufe der Zeit anRegelmäßige Überprüfung statt Echtzeit-BeteiligungNein, nicht auf der Ebene einzelner EntscheidungenEin Compliance-Team überprüft vierteljährlich AI-KreditentscheidungenSysteme mit geringerem Risiko oder hochgradig automatisierte Systeme mit starken Governance-Kontrollen

In der Praxis nutzen viele AI-Systeme eine Kombination aus allen drei Ansätzen. Entscheidungen mit dem höchsten Risiko erfordern möglicherweise eine direkte menschliche Genehmigung über HITL, während die Routineüberwachung „on the Loop“ und die Governance „over the Loop“ erfolgt. Die richtige Balance hängt von den Risiken, der Skalierung des Systems und dem tatsächlichen Bedarf an menschlichem Urteilsvermögen ab.

HITL vs. RLHF: Verwandte Konzepte, unterschiedliche Aufgaben

HITL und RLHF sind eng miteinander verwandt, aber nicht austauschbar.

HITL ist das umfassendere Konzept. Es beschreibt jedes System, bei dem Menschen dazu beitragen, das Verhalten einer AI zu steuern, zu überprüfen oder zu verbessern. Dies kann während des Trainings, bei Live-Entscheidungen oder nach der Inbetriebnahme eines Modells in der Produktion geschehen.

RLHF ist eine spezifische Methode dafür. Bei RLHF bewerten Menschen die Antworten des Modells oder bringen sie in eine Rangfolge, damit das System lernt, welche Antworten nützlicher, genauer oder besser auf die menschlichen Erwartungen abgestimmt sind. Dieses Feedback wird dann verwendet, um das Large Language Model (LLM) zu trainieren und feinzutunen.

Beispielsweise kann HITL auch das Labeln von Trainingsdaten, das Überprüfen von Modellergebnissen in der Produktion, das Genehmigen von Agenten-Aktionen im Vorfeld oder das Zurückspielen menschlicher Korrekturen in das System umfassen.

Am einfachsten lässt es sich so ausdrücken: RLHF konzentriert sich speziell darauf, wie ein Modell während des Trainings lernt, während HITL die umfassendere Rolle beschreibt, die Menschen bei der Überwachung und Verbesserung von AI-Systemen über den gesamten Lebenszyklus hinweg spielen.

Wo HITL zum Einsatz kommt: Praxisbeispiele aus verschiedenen Branchen

HITL wird am häufigsten dort eingesetzt, wo AI-Entscheidungen reale Konsequenzen haben oder menschliches Urteilsvermögen, Kontext oder Fachwissen erfordern. In vielen AI-Systemen für Unternehmen sind Menschen nicht dazu da, die AI zu ersetzen. Sie greifen ein, wenn es auf das Urteilsvermögen ankommt.

Laut Databricks-Untersuchungen zur AI-Einführung in Unternehmen konzentrieren sich rund 40 % der führenden AI-Anwendungsfälle auf die Customer Experience (Kundenerfahrung), und viele dieser Workflows basieren an kritischen Punkten immer noch auf einer Form von menschlicher Überprüfung, Eskalation oder Genehmigung.

  • Medizinische Bildgebung. Radiologen überprüfen und bestätigen von der AI markierte Befunde auf Scans, bevor eine Diagnose gestellt wird.
  • Inhaltsmoderation. Menschliche Prüfer greifen ein, wenn Beiträge zu nuanciert oder mehrdeutig sind, als dass eine AI sie zuverlässig bewerten könnte. Dies gilt insbesondere für Hassrede, Fehlinformationen oder sensible Bilder, bei denen der Kontext die Bedeutung völlig verändern kann.
  • Autonome Fahrzeuge. Sicherheitsfahrer oder Remote-Bediener übernehmen, wenn das Fahrzeug auf eine Situation stößt, die es nicht selbstständig und sicher bewältigen kann.
  • Finanzdienstleistungen. Analysten prüfen Kreditgenehmigungen, Betrugswarnungen oder Geldwäscheverdachtsfälle, wenn das Modell nicht sicher genug ist, um die Entscheidung selbstständig zu treffen.
  • Contact Center. Menschliche Mitarbeiter greifen ein, wenn AI-Chatbots ein Kundenproblem nicht lösen können oder wenn ein Gespräch besonders sensibel oder komplex wird.
  • Generative AI-Anwendungen. Redakteure überprüfen AI-generierte Inhalte vor der Veröffentlichung, während Reviewer die Ergebnisse bewerten, um zukünftige Antworten zu verbessern. Weitere Informationen zur Funktionsweise dieser Systeme finden Sie unter Generative AI.
  • AI-Agenten und Tool-Nutzung. Bei AI-Agenten, die Aktionen wie das Versenden von E-Mails, das Aktualisieren von Datensätzen oder das Ausführen von Code durchführen können, geben Menschen oft folgenschwerere Aktionen frei, bevor tatsächlich etwas passiert.
  • Dokumentenverarbeitung. Spezialisten überprüfen extrahierte Daten aus Verträgen, Schadensmeldungen oder Rechnungen, wenn der Konfidenzwert eines Modells unter einen definierten Schwellenwert fällt. Einen tieferen Einblick in diesen Anwendungsfall finden Sie unter Intelligente Dokumentenverarbeitung.
Bericht

Das Playbook für agentenbasierte KI für Unternehmen

HITL ist keine Garantie: Einschränkungen, die jedes Team kennen sollte

HITL ist eine der effektivsten Methoden, um AI-Systeme präziser, verantwortungsvoller und vertrauenswürdiger zu machen, aber es ist kein magisches Allheilmittel. Die Einbindung des Menschen hilft nur, wenn das System durchdacht konzipiert ist. Andernfalls kann HITL zu Engpässen, inkonsistenten Entscheidungen oder der Illusion von Kontrolle führen, ohne dass eine echte Steuerung stattfindet.

Latenz und Kosten: Jeder Überprüfungsschritt sorgt für Reibung

Jeder menschliche Überprüfungsschritt kostet Zeit und Geld im Workflow. Bei Systemen mit hohem Durchsatz kann die Weiterleitung zu vieler Entscheidungen an Menschen die Kosten schnell in die Höhe treiben und zeitkritische Prozesse verlangsamen.

Aus diesem Grund setzen ausgereifte HITL-Systeme in der Regel auf Konfidenzschwellenwerte und Risikobewertungen, um nur diejenigen Entscheidungen zu eskalieren, die tatsächlich ein menschliches Urteil erfordern.

Nachlassen der Aufmerksamkeit: Warum Prüfer aufhören, genau hinzusehen

Wenn Menschen lange Ströme von größtenteils korrekten AI-Ergebnissen überprüfen, lässt die Aufmerksamkeit naturgemäß nach. Prüfer geben Ergebnisse unter Umständen zu schnell frei oder hören ganz auf, sie sorgfältig zu bewerten – ein Phänomen, das als Vigilanzminderung (Vigilance Decrement) bekannt ist.

In einigen Systemen können Prüfer auch übermäßig abhängig von der AI selbst werden und den Empfehlungen des Modells allmählich blind vertrauen, anstatt sie aktiv zu hinterfragen. Wenn das passiert, verliert die menschliche Aufsicht an Bedeutung, obwohl technisch gesehen immer noch ein Mensch „in the loop“ ist.

Diese Art von passiver Überwachungsmüdigkeit kann überraschend schnell einsetzen, insbesondere bei monotonen Workflows. Teams wirken dem oft entgegen, indem sie die Prüfer rotieren lassen, die Batch-Größen begrenzen und Freigabemuster auditieren.

Menschliche Urteile sind nicht immer konsistent – und das ist wichtig

Menschen sind sich nicht immer einig, und selbst derselbe Prüfer kann in ähnlichen Situationen unterschiedliche Entscheidungen treffen. Ohne klare Richtlinien und regelmäßige Kalibrierung kann menschliches Feedback inkonsistent oder ungenau werden.

Diese Inkonsistenz ist problematisch, da menschliches Feedback oft Teil des Trainingssignals wird. Wenn das Feedback selbst unzuverlässig ist, wird es viel schwieriger, das Modell systematisch zu verbessern.

Wer gilt als „der Mensch“?

In vielen HITL-Systemen ist der „Human in the Loop“ oft ein externer Dienstleister, ein Annotator oder ein Junior-Prüfer und kein echter Fachexperte. Das wirft eine wichtige Frage auf: Wer ist tatsächlich qualifiziert, die Entscheidung zu treffen?

Ein gutes HITL-Design berücksichtigt nicht nur, ob Menschen involviert sind, sondern ob es die richtigen Personen sind – einschließlich Fachexperten oder in einigen Fällen der Personen, die am stärksten von der Entscheidung betroffen sind.

Wenn Prüfer die AI nicht verstehen, wird die Aufsicht zur reinen Formsache

Eine sinnvolle Aufsicht funktioniert nur, wenn die Prüfer tatsächlich beurteilen können, was das Modell erzeugt hat und warum. Wenn das System zu undurchsichtig, zu komplex oder zu schnell ist, um es in Echtzeit zu bewerten, verkommt die menschliche Freigabe schnell zum bloßen Abnicken.

Aus diesem Grund sind Erklärbarkeit, Transparenz und klare Eskalationskriterien entscheidende Bestandteile effektiver HITL-Systeme und keine optionalen Extras.

Menschliches Feedback kann fehlerhaft sein

Menschen bringen Vorurteile (Biases) mit, machen Fehler und versuchen manchmal, das System auszutricksen. AI-Modelle lernen so oder so aus diesem Feedback. Bei RLHF und anderen HITL-Systemen kann schlechtes Feedback Modelle allmählich ungenauer, weniger fair oder leichter manipulierbar machen.

Deshalb umfassen starke HITL-Programme Schulungen für Prüfer, Konsistenzprüfungen und regelmäßige Audits. Menschliche Aufsicht funktioniert nur, wenn das Feedback selbst zuverlässig ist.

Wann man auf den Menschen im Prozess verzichten sollte

HITL ist nicht immer die richtige Lösung. Es gibt Situationen, in denen eine menschliche Überprüfung mehr Probleme schafft als sie löst.

  • Latenzsensitive Systeme. Hochfrequenzhandel, Regelkreise für autonomes Fahren und Live-Systeme zur Betrugsbewertung können oft nicht bei jeder Entscheidung auf eine menschliche Überprüfung warten.
  • Aufgaben mit geringem Risiko und hohem Volumen. Wenn die Kosten für einen einzelnen Fehler gering und die Überprüfungskosten hoch sind, ist eine Vollautomatisierung mit regelmäßigen Audits oft praktischer.
  • Aufgaben, bei denen das Modell die Prüfer übertrifft. Bei eng umgrenzten, klar definierten Aufgaben können Modelle menschliche Prüfer konsistent übertreffen. In diesen Fällen kann der Einsatz von Menschen zu Inkonsistenzen führen, anstatt Fehler zu korrigieren.
  • Nicht überprüfbare AI-Entscheidungsfindung. Wenn Menschen die Ergebnisse realistisch nicht bewerten können, weil das System zu komplex ist oder zu schnell arbeitet, droht HITL zu einem reinen Alibi für Verantwortlichkeit zu werden, statt eine echte Aufsicht zu bieten.

Der Schlüssel liegt darin, die menschliche Beteiligung auf das Risiko, das Entscheidungsvolumen und den tatsächlichen Wert des menschlichen Urteils abzustimmen – anstatt standardmäßig überall eine Aufsicht einzurichten oder dem Modell blind zu vertrauen.

Wenn mehr auf dem Spiel steht: HITL für AI-Agenten und LLMs

HITL wird noch wichtiger, wenn AI-Systeme nicht mehr nur Inhalte generieren, sondern im Namen des Nutzers Aktionen ausführen.

Ein Chatbot, der einen E-Mail-Entwurf vorschlägt, ist eine Sache. Ein AI-Agent, der die E-Mail tatsächlich versendet, einen CRM-Datensatz aktualisiert oder einen nachgelagerten Workflow auslöst, ist etwas ganz anderes. Sobald AI-Systeme echte Aktionen in Geschäftsabläufen ausführen können, steht viel mehr auf dem Spiel.

Aus diesem Grund sind viele AI-Agenten so konzipiert, dass sie vor risikoreicheren Aktionen innehalten und zuerst um menschliche Freigabe bitten. Beispielsweise kann ein Agent eine Kunden-E-Mail entwerfen, die Aktualisierung einer Datenbank empfehlen oder eine Kaufanfrage vorbereiten, wartet jedoch mit der Ausführung auf die Freigabe.

Aktionen mit geringerem Risiko können oft automatisch ablaufen, wobei das System im Nachhinein eine Zusammenfassung anzeigt, anstatt jedes Mal eine Freigabe zu verlangen.

HITL spielt auch bei LLM-gestützten Anwendungen im Allgemeinen eine wichtige Rolle. Teams können generierte Inhalte vor der Veröffentlichung überprüfen, Modellantworten für das Fine-Tuning bewerten oder sensible Gespräche an menschliche Mitarbeiter weiterleiten, wenn das Modell nicht sicher genug ist, um selbstständig zu antworten.

Da AI-Agenten den Sprung von Demos in echte Produktionsumgebungen schaffen, klare Eskalationspfade und menschliche Aufsicht schnell zu Grundanforderungen für Enterprise AI werden.

Wie Databricks HITL in die Produktion bringt

Um HITL in die Produktion zu bringen, reicht es nicht aus, eine Überprüfungswarteschlange oder eine Freigabeschaltfläche hinzuzufügen. Teams benötigen eine Möglichkeit, menschliches Feedback in großem Umfang zu erfassen, Entscheidungen an die richtigen Personen weiterzuleiten, das Modellverhalten zu verfolgen und sensible Daten zu verwalten, ohne isolierte Workflows oder neue Datensilos zu schaffen.

Databricks unterstützt dies durch Agent Bricks, das Agent Learning from Human Feedback (ALHF) beinhaltet. Anstatt sich auf einfache Daumen-hoch- oder Daumen-runter-Bewertungen zu verlassen, erfasst ALHF detaillierteres Feedback in natürlicher Sprache von Fachexperten und nutzt es, um das Verhalten von Agenten bei zukünftigen Interaktionen zu verbessern.

Expertenfeedback in Systemverbesserungen umwandeln

Menschliches Feedback kann mehr bewirken, als nur eine einzelne Antwort zu korrigieren. Mit Agent Bricks können Teams Feedback nutzen, um das gesamte Agentensystem zu verbessern, einschließlich:

  • Retrieval-Strategien
  • Prompt-Logik
  • Tool-Auswahl
  • Wie Agenten Informationen aus Vektordatenbanken abrufen und nutzen

In einer Fallstudie zum Agent Bricks Knowledge Assistant verbesserte sich die Fähigkeit eines Q&A-Agenten, Expertenanweisungen zu befolgen, mit nur 32 menschlichen Feedbacks von etwa 12 % auf 80 %.

Jede Interaktion kontrollierbar und nachvollziehbar machen

Databricks behandelt zudem jede Interaktion als kontrollierten, rückverfolgbaren Datensatz. End-to-End-Traces erfassen, wie Antworten generiert wurden, während Unity Catalog die Governance-Ebene bereitstellt, die für die Verwaltung sensibler Daten und des Agentenverhaltens erforderlich ist.

Dies bietet Teams eine zentrale Transparenz über:

  • Zugriffskontrolle
  • Lineage auf Spaltenebene von den Quelltabellen über die Tool-Aufrufe des Agenten bis hin zu den finalen Ausgaben
  • Audit-Logs zur Unterstützung regulatorischer Prüfungen
  • Die Herkunft der Daten
  • Das Verhalten der Modelle
  • Wer worauf Zugriff hat

HITL in den Produktions-Workflow integrieren

Ohne Transparenz können Teams nicht feststellen, ob menschliches Feedback das System tatsächlich verbessert. Anstatt die Überwachung als separaten manuellen Prozess zu behandeln, hilft Databricks dabei, HITL zu einem Teil des Systems selbst zu machen. So können Unternehmen Modelle verbessern, Compliance-Vorgaben einhalten und AI-Systemen in der Produktion vertrauen.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Human-in-the-Loop und Human-on-the-Loop?

Human-in-the-Loop (HITL) bedeutet, dass die AI innehält und darauf wartet, dass eine Person eine Entscheidung überprüft oder genehmigt, bevor sie aktiv wird. Human-on-the-Loop (HOTL) bedeutet, dass die AI selbstständig agiert, während eine Person das System überwacht und nur dann eingreift, wenn etwas fehlerhaft erscheint.

Kurz gesagt: HITL bietet eine engere Kontrolle. HOTL ist auf Skalierbarkeit ausgelegt.

Was ist ein Beispiel für Human-in-the-Loop?

Ein Radiologe, der die Tumorerkennung eines AI-Systems überprüft, bevor er eine Diagnose bestätigt, ist ein klassisches Beispiel für HITL.

In der Enterprise-AI ist ein weiteres häufiges Beispiel ein AI-Agent, der vor dem Senden einer externen E-Mail, dem Aktualisieren eines Produktionsdatensatzes oder dem Auslösen eines Workflows innehält, damit eine Person die Aktion zuerst genehmigen kann.

Ist Human-in-the-Loop dasselbe wie RLHF?

Nein. HITL ist das übergeordnete Konzept. Es beschreibt Systeme, bei denen Menschen dazu beitragen, das Verhalten von AI zu gestalten.

Reinforcement Learning from Human Feedback (RLHF) ist eine spezifische Methode innerhalb dieser breiteren Kategorie. Bei RLHF bewerten oder priorisieren Menschen die Antworten des Modells während des Trainings, um die Feinabstimmung des Modells zu unterstützen.

Jedes RLHF-System ist eine Form von HITL, aber HITL umfasst auch Dinge wie Daten-Labeling, die Überprüfung von Ausgaben und die Genehmigung von Agenten-Aktionen.

Wann sollte Human-in-the-Loop eingesetzt werden?

HITL ist am nützlichsten, wenn Entscheidungen von großer Tragweite sind, Fehler schwerwiegende Folgen haben oder AI-Systeme auf Situationen stoßen, für die sie nicht trainiert wurden.

Es ist auch in regulierten Branchen wichtig, in denen Unternehmen eine dokumentierte menschliche Aufsicht benötigen.

Aber HITL ist nicht immer die richtige Wahl. Für schnelle, risikoarme oder extrem volumenstarke Aufgaben können vollautomatisierte Systeme sinnvoller sein.

Wie lässt sich Human-in-the-Loop auf AI-Agenten anwenden?

AI-Agenten erhöhen das Risiko, da sie reale Aktionen in Geschäftssystemen ausführen können, wie das automatische Senden von Nachrichten, das Aktualisieren von Datenbanken oder das Auslösen von Workflows.

Aus diesem Grund sind viele Agenten so konzipiert, dass sie vor Aktionen mit größerer Tragweite innehalten und zuerst um menschliche Genehmigung bitten.

Da AI-Agenten den Schritt von Demos in echte Produktionsumgebungen vollziehen, werden klare Eskalationspfade und eine sinnvolle Überwachung schnell zur Standardpraxis. Databricks Agent Bricks enthält Agent Learning from Human Feedback (ALHF), um Unternehmen beim Aufbau skalierbarer Feedbackschleifen für AI-Agenten und -Anwendungen zu unterstützen.

Erste Schritte mit kontrollierter, auf den Menschen ausgerichteter AI auf Databricks

HITL hilft Teams dabei, die Genauigkeit, Vertrauenswürdigkeit und Verantwortlichkeit von AI aufrechtzuerhalten, wenn Systeme von Demos in echte Produktionsumgebungen übergehen. Es funktioniert am besten, wenn menschliches Feedback, Governance und Evaluierung auf derselben Plattform stattfinden, anstatt über separate Tools und Workflows verteilt zu sein.

Erfahren Sie, wie Agent Bricks menschliches Feedback und kontinuierliche Evaluierung nutzt, um hochwertige AI-Agenten auf Ihren Unternehmensdaten aufzubauen.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.