Che cos'è l'Human-in-the-Loop (HITL)?

HITL dovrebbe essere basato sul rischio, non applicato ovunque. I team ottengono il massimo valore quando la revisione umana è riservata a decisioni ad alto impatto, incerte o regolamentate.
Gli agenti AI rendono l'approvazione umana ancora più importante. Quando gli agenti possono aggiornare record, inviare messaggi o attivare workflow, i team hanno bisogno di percorsi di escalation chiari prima che le azioni vengano eseguite.
Il feedback umano deve diventare dato operativo. Il vero valore di HITL emerge quando il feedback viene acquisito, governato e utilizzato per migliorare il comportamento dell'agente nel tempo, anziché essere lasciato in workflow di revisione scollegati.

Human in the loop (HITL) è un approccio di AI e machine learning in cui le persone partecipano attivamente all'addestramento, alla supervisione o al processo decisionale di un sistema per migliorarne l'accuratezza, la sicurezza e l'allineamento etico. Il "loop" descrive il ciclo di base: un modello genera un output, una persona lo esamina o lo corregge e tale feedback torna nel sistema. Ogni correzione insegna al modello a comportarsi in modo più simile a quanto le persone si aspettano.

HITL non si limita a una sola fase di sviluppo. Può comparire nell'intero ciclo di vita dell'AI, dall'etichettatura dei dati di addestramento alla revisione degli output del modello fino all'approvazione delle azioni degli agenti in produzione. È particolarmente importante nei casi limite e nelle situazioni ad alto rischio in cui gli errori comportano conseguenze reali: un'AI radiologica che segnala una scansione, un agente AI che si prepara a modificare un database di produzione o un sistema di rilevamento delle frodi che gestisce una transazione insolita.

Le sezioni seguenti spiegano come funziona HITL nella pratica, come si confronta con approcci simili, dove viene applicato nei vari settori e quando potrebbe non essere la soluzione adatta.

Perché i team utilizzano HITL: accuratezza, fiducia e conformità in un unico ciclo

Le organizzazioni utilizzano HITL per rendere i sistemi di AI più affidabili e sicuri, senza perdere la velocità dell'automazione. I vantaggi si sommano: un feedback umano migliore porta a dati di addestramento migliori, dati di addestramento migliori portano a modelli migliori e modelli migliori richiedono meno interventi.

Maggiore accuratezza. I revisori umani individuano gli errori che sfuggono al modello, soprattutto quando il sistema incontra input sconosciuti o situazioni per le quali i dati di addestramento non lo hanno preparato completamente.
Migliore gestione dei casi limite. Le persone possono applicare giudizio, contesto e buon senso in situazioni in cui il modello potrebbe essere incerto o trovarsi di fronte a qualcosa per cui non è stato addestrato.
Riduzione dei bias. La supervisione umana può aiutare i team a identificare e correggere output distorti, dannosi o sbilanciati prima che raggiungano gli utenti o i sistemi a valle.
Sicurezza e allineamento etico. I punti di controllo umani impediscono la pubblicazione di output dannosi, inappropriati o non conformi.
Conformità normativa. Molte nuove normative sull'AI ora richiedono una supervisione umana significativa per i sistemi a rischio più elevato. Ad esempio, l'articolo 14 dell'EU AI Act richiede che i sistemi di AI ad alto rischio supportino il monitoraggio e l'intervento umano, mentre il NIST AI Risk Management Framework sottolinea l'importanza della supervisione umana nelle applicazioni ad alto impatto.
Maggiore fiducia e adozione. Le persone sono più disposte ad affidarsi a sistemi di AI se sanno che un essere umano può controllarli o escluderli.
Miglioramento continuo. Ogni correzione diventa un'altra opportunità di apprendimento, aiutando un sistema HITL ben progettato non solo a individuare gli errori, ma a eliminare intere categorie di errori nel tempo.

Il ciclo di feedback spiegato: come funziona HITL nella pratica

HITL non è un singolo passaggio o punto di controllo. È un design pattern che può comparire nell'intero ciclo di vita dell'AI, dalla preparazione dei dati di addestramento alla revisione degli output dopo il deployment. Ecco come si presenta nella pratica.

Etichettatura dei dati. Le persone taggano o annotano dati grezzi come immagini, testo e audio in modo che il modello disponga di esempi accurati da cui apprendere. Queste decisioni influenzano direttamente le prestazioni del modello.
Addestramento del modello. Gli esseri umani esaminano e correggono gli output del modello durante l'addestramento per aiutare il sistema a capire cosa sia "corretto". Questo include spesso l'apprendimento per rinforzo da feedback umano (RLHF), in cui i revisori classificano o valutano le risposte per guidare il modello verso risposte migliori.
Revisione dell'inferenza. Una volta che un modello è attivo, le persone possono esaminare determinati output prima che venga intrapresa un'azione. Ciò accade solitamente quando le previsioni sono incerte, insolite o legate a decisioni a rischio più elevato.
Escalation ed esclusione. Quando un modello supera una soglia di rischio definita, il sistema può affidare la decisione a una persona che la esamina, la approva, la rifiuta o la corregge prima che il sistema proceda.
Feedback continuo. Il feedback umano non si ferma dopo il deployment. Le correzioni e le revisioni possono rifluire nel sistema, aiutando i team a riaddestrare o a eseguire il fine-tuning del modello in modo che le prestazioni migliorino anziché degradare.

Non tutti i sistemi di AI hanno bisogno di esseri umani in ogni fase. La maggior parte dei sistemi HITL maturi utilizza soglie di confidenza e punteggi di rischio per indirizzare solo un sottoinsieme di decisioni alla revisione umana. Questo è ciò che rende HITL scalabile nella pratica.

In the loop, on the loop, over the loop: qual è la differenza?

Questi tre termini descrivono diversi livelli di coinvolgimento umano nei sistemi di AI e sono facili da confondere. La differenza principale risiede nel grado di coinvolgimento delle persone nelle decisioni e nella rapidità con cui possono intervenire quando necessario.

Approccio	Ruolo umano	Tempistiche	È richiesta la revisione umana?	Esempio	Profilo di rischio tipico
Human in the loop (HITL)	Valuta, corregge o approva attivamente gli output dell'AI	Sincrono: avviene prima che venga intrapresa un'azione	Sì, per decisioni segnalate o sensibili	Un radiologo che esamina il rilevamento di un tumore da parte dell'AI prima che la diagnosi venga finalizzata	Decisioni ad alto rischio e a basso volume in cui l'accuratezza conta più della velocità
Human on the loop (HOTL)	Monitora l'attività dell'AI e interviene quando qualcosa non va	Asincrono: viene eseguito parallelamente al sistema di AI	A volte, in via eccezionale	Un analista delle frodi che monitora una dashboard di blocchi automatici delle transazioni	Decisioni a medio rischio e a volume più elevato in cui contano sia la velocità che la supervisione
Human over the loop	Definisce le policy, controlla i risultati e adegua il sistema nel tempo	Revisione periodica anziché coinvolgimento in tempo reale	No, non a livello di singola decisione	Un team di conformità che esamina le decisioni di prestito dell'AI ogni trimestre	Sistemi a basso rischio o altamente automatizzati con forti controlli di governance

Nella pratica, molti sistemi di AI utilizzano una combinazione di tutti e tre gli approcci. Le decisioni a rischio più elevato possono richiedere l'approvazione umana diretta tramite HITL, mentre il monitoraggio di routine avviene "on the loop" e la governance avviene "over the loop". Il giusto equilibrio dipende dalla posta in gioco, dalla scala del sistema e da quanto giudizio umano richiede effettivamente l'attività.

HITL vs. RLHF: concetti correlati, compiti diversi

HITL e RLHF sono strettamente correlati, ma non sono intercambiabili.

HITL è il concetto più ampio. Descrive qualsiasi sistema in cui le persone aiutano a guidare, esaminare o migliorare il comportamento dell'AI. Ciò può accadere durante l'addestramento, il processo decisionale in tempo reale o dopo che un modello è già in esecuzione in produzione.

RLHF è un modo specifico per farlo. In RLHF, le persone classificano o valutano le risposte del modello in modo che il sistema apprenda quali risposte sono più utili, accurate o allineate con le aspettative umane. Tale feedback viene poi utilizzato per addestrare ed eseguire il fine-tuning del large language model (LLM).

Ad esempio, HITL può includere anche l'etichettatura dei dati di addestramento, la revisione degli output del modello in produzione, l'approvazione delle azioni degli agenti prima che avvengano o l'inserimento di correzioni umane nel sistema.

Il modo più semplice per pensarla è questo: RLHF si concentra specificamente sul miglioramento del modo in cui un modello apprende durante l'addestramento, mentre HITL descrive il ruolo più ampio che le persone svolgono nella supervisione e nel miglioramento dei sistemi di AI durante l'intero ciclo di vita.

Dove viene applicato HITL: esempi reali nei vari settori

HITL è più comune laddove le decisioni dell'AI comportano conseguenze reali o richiedono giudizio, contesto o competenza umana. In molti sistemi di AI aziendali, le persone non sono lì per sostituire l'AI. Intervengono quando il giudizio è fondamentale.

Secondo una ricerca di Databricks sull'adozione dell'AI aziendale, circa il 40% dei principali casi d'uso dell'AI si concentra sulla customer experience e molti di questi flussi di lavoro si affidano ancora a una qualche forma di revisione, escalation o approvazione umana nei punti critici.

Imaging medico. I radiologi esaminano e confermano i risultati segnalati dall'AI sulle scansioni prima che la diagnosi venga finalizzata.
Moderazione dei contenuti. I revisori umani intervengono quando i post sono troppo sfumati o ambigui perché l'AI possa valutarli con sicurezza, in particolare in caso di incitamento all'odio (hate speech), disinformazione o immagini sensibili in cui il contesto può cambiare completamente il significato.
Veicoli autonomi. I conducenti di sicurezza o gli operatori remoti intervengono quando il veicolo si trova in una situazione che non è in grado di gestire autonomamente con sicurezza.
Servizi finanziari. Gli analisti esaminano le approvazioni dei prestiti, gli avvisi di frode o i casi di antiriciclaggio quando il modello non è abbastanza sicuro per prendere una decisione in autonomia.
Contact center. Gli operatori umani intervengono quando i chatbot AI non riescono a risolvere un problema del cliente o quando una conversazione diventa particolarmente delicata o complessa.
Applicazioni di AI generativa. I redattori esaminano i contenuti generati dall'AI prima della pubblicazione, mentre i revisori valutano i risultati per contribuire a migliorare le risposte future. Vedi AI generativa per saperne di più sul funzionamento di questi sistemi.
Agenti AI e uso degli strumenti. Per gli agenti AI in grado di compiere azioni come l'invio di e-mail, l'aggiornamento di record o l'esecuzione di codice, le persone spesso approvano le azioni a maggiore impatto prima che avvenga effettivamente qualcosa.
Elaborazione dei documenti. Gli specialisti verificano i dati estratti da contratti, sinistri o fatture quando il punteggio di confidenza di un modello scende al di sotto di una soglia definita. Vedi elaborazione intelligente dei documenti per un'analisi più approfondita di questo caso d'uso.

L'HITL non è una garanzia: limitazioni che ogni team dovrebbe conoscere

L'HITL è uno dei modi più efficaci per rendere i sistemi di AI più accurati, responsabili e affidabili, ma non è una salvaguardia magica. Il coinvolgimento umano è utile solo quando il sistema è progettato con criterio. In caso contrario, l'HITL può creare colli di bottiglia, decisioni incoerenti o l'illusione di una supervisione senza un reale controllo.

Latenza e costi: ogni fase di revisione aggiunge attrito

Ogni fase di revisione umana aggiunge tempo e costi al flusso di lavoro. Nei sistemi ad alto volume, sottoporre troppe decisioni alle persone può far lievitare rapidamente i costi e rallentare i processi in cui il fattore tempo è fondamentale.

Ecco perché i sistemi HITL maturi di solito si affidano a soglie di confidenza e punteggi di rischio per inoltrare solo le decisioni che richiedono realmente il giudizio umano.

Calo della vigilanza: perché i revisori smettono di prestare reale attenzione

Quando le persone esaminano lunghi flussi di risultati di AI per lo più corretti, l'attenzione inizia naturalmente a calare. I revisori potrebbero iniziare ad approvare i risultati troppo rapidamente o smettere del tutto di valutarli attentamente, un fenomeno noto come calo della vigilanza (vigilance decrement).

In alcuni sistemi, i revisori possono anche diventare eccessivamente dipendenti dall'AI stessa, fidandosi gradualmente delle raccomandazioni del modello invece di metterle attivamente in discussione. Quando ciò accade, la supervisione umana perde di significato, anche se tecnicamente una persona è ancora "in the loop".

Questo tipo di affaticamento da monitoraggio passivo può iniziare in modo sorprendentemente rapido, specialmente nei flussi di lavoro ripetitivi. I team spesso mitigano questo problema alternando i revisori, limitando le dimensioni dei batch e controllando i pattern di approvazione.

Il giudizio umano non è sempre coerente, e questo conta

Le persone non sono sempre d'accordo tra loro e persino lo stesso revisore può prendere decisioni diverse in situazioni simili. Senza linee guida chiare e una calibrazione regolare, il feedback umano può diventare incoerente o rumoroso.

Questa incoerenza è importante perché il feedback umano spesso diventa parte del segnale di addestramento. Se il feedback stesso non è affidabile, migliorare il modello in modo sistematico diventa molto più difficile.

Chi è considerato "l'essere umano"?

In molti sistemi HITL, l'"human in the loop" può essere un fornitore esterno, un annotatore o un revisore junior piuttosto che un vero esperto del settore. Questo solleva una questione importante: chi è effettivamente qualificato per prendere la decisione?

Una solida progettazione HITL non considera solo se gli esseri umani sono coinvolti, ma se sono coinvolti gli esseri umani giusti, inclusi esperti in materia o, in alcuni casi, le persone più colpite dal risultato.

Se i revisori non riescono a comprendere l'AI, la supervisione diventa puramente formale

Una supervisione significativa funziona solo quando i revisori possono effettivamente valutare ciò che il modello ha prodotto e perché. Se il sistema è troppo opaco, troppo complesso o troppo veloce per essere valutato in tempo reale, l'approvazione umana può ridursi a una mera formalità.

Ecco perché la spiegabilità, la trasparenza e criteri di escalation chiari sono parti fondamentali di sistemi HITL efficaci, piuttosto che componenti opzionali.

Il feedback umano può essere errato

Le persone portano con sé pregiudizi, commettono errori e talvolta cercano di ingannare il sistema. I modelli AI imparano comunque da quel feedback. Nel RLHF e in altri sistemi HITL, un feedback scadente può rendere gradualmente i modelli meno accurati, meno equi o più facili da manipolare.

Ecco perché i programmi HITL solidi includono la formazione dei revisori, controlli di conformità e audit regolari. La supervisione umana funziona solo quando il feedback stesso è affidabile.

Quando escludere gli esseri umani dal loop

L'HITL non è sempre la risposta giusta. Ci sono situazioni in cui l'aggiunta della revisione umana introduce più problemi di quanti ne risolva.

Sistemi sensibili alla latenza. Il trading ad alta frequenza, i cicli di controllo della guida autonoma e i sistemi di scoring delle frodi in tempo reale spesso non possono interrompersi per una revisione umana su ogni decisione.
Attività a basso rischio e ad alto volume. Quando il costo di un singolo errore è basso e i costi di revisione sono elevati, l'automazione completa con audit periodici è spesso più pratica.
Attività in cui il modello supera i revisori. In attività limitate e ben definite, i modelli possono superare costantemente i revisori umani. In questi casi, l'aggiunta di persone può introdurre incoerenze invece di rilevare gli errori.
Ragionamento dell'AI non verificabile. Se gli esseri umani non possono valutare realisticamente l'output perché il sistema è troppo complesso o opera troppo rapidamente, l'HITL rischia di diventare una messinscena della responsabilità piuttosto che una supervisione significativa.

La chiave è allineare il coinvolgimento umano alla posta in gioco, al volume delle decisioni e al valore effettivo del giudizio umano, anziché ricorrere alla supervisione ovunque per impostazione predefinita o fidarsi completamente del modello.

Alzare la posta in gioco: HITL per agenti AI e LLM

L'HITL diventa ancora più importante quando i sistemi di AI vanno oltre la generazione di contenuti e iniziano a compiere azioni per conto dell'utente.

Un chatbot che suggerisce una bozza di e-mail è una cosa. Un agente AI che invia effettivamente l'e-mail, aggiorna un record CRM o attiva un flusso di lavoro a valle è qualcosa di molto diverso. Una volta che i sistemi di AI possono compiere azioni reali all'interno dei flussi di lavoro aziendali, la posta in gioco diventa molto più alta.

Ecco perché molti agenti AI sono progettati per mettersi in pausa prima di azioni a rischio più elevato e chiedere prima l'approvazione umana. Ad esempio, un agente potrebbe redigere un'e-mail per un cliente, consigliare l'aggiornamento di un database o preparare una richiesta di acquisto, ma attendere l'approvazione prima di agire.

Le azioni a basso rischio possono spesso avvenire automaticamente, con il sistema che mostra un riepilogo a posteriori invece di richiedere l'approvazione ogni volta.

L'HITL svolge un ruolo importante anche nelle applicazioni basate su LLM più in generale. I team possono esaminare i contenuti generati prima della pubblicazione, classificare o valutare le risposte del modello per il fine-tuning o indirizzare le conversazioni delicate a operatori umani quando il modello non è abbastanza sicuro per rispondere da solo.

Man mano che gli agenti AI passano dalle demo ai reali ambienti di produzione, percorsi di escalation chiari e la supervisione umana stanno rapidamente diventando requisiti fondamentali per l'enterprise AI.

Come Databricks porta l'HITL in produzione

Portare l'HITL in produzione richiede molto più dell'aggiunta di una coda di revisione o di un pulsante di approvazione. I team hanno bisogno di un modo per raccogliere il feedback umano su scala, indirizzare le decisioni alle persone giuste, tracciare il comportamento del modello e governare i dati sensibili senza creare flussi di lavoro scollegati o nuovi silos di dati.

Databricks supporta questo processo attraverso Agent Bricks, che include l'Agent Learning from Human Feedback (ALHF). Invece di affidarsi a semplici valutazioni con pollice in su o pollice in giù, l'ALHF acquisisce feedback in linguaggio naturale più ricchi da parte di esperti del settore e li utilizza per migliorare il comportamento degli agenti nelle interazioni future.

Trasformare il feedback degli esperti in miglioramenti del sistema

Il feedback umano può fare molto di più che correggere una singola risposta. Con Agent Bricks, i team possono utilizzare il feedback per migliorare il sistema degli agenti nel suo complesso, tra cui:

Strategie di recupero
Logica dei prompt
Selezione degli strumenti
Il modo in cui gli agenti recuperano e utilizzano le informazioni dai database vettoriali

In un caso di studio sull'Agent Bricks Knowledge Assistant, la capacità di un agente di Q&A di seguire le istruzioni degli esperti è migliorata da circa il 12% all'80% utilizzando solo 32 feedback umani.

Rendere ogni interazione governata e tracciabile

Databricks gestisce inoltre ogni interazione come un record governato e tracciabile. Le tracce end-to-end acquisiscono il modo in cui sono state generate le risposte, mentre Unity Catalog fornisce il livello di governance necessario per gestire i dati sensibili e il comportamento degli agenti.

Questo offre ai team una visibilità centralizzata su:

Controllo degli accessi
Lineage a livello di colonna dalle tabelle di origine, attraverso le chiamate agli strumenti dell'agente, fino agli output finali
Log di controllo che supportano le verifiche di conformità normativa
Provenienza dei dati
Comportamento dei modelli
Chi ha accesso a cosa

Integrazione di HITL nel workflow di produzione

Senza visibilità, i team non possono sapere se il feedback umano stia effettivamente migliorando il sistema. Invece di considerare la supervisione come un processo manuale scollegato, Databricks aiuta a rendere HITL parte integrante del sistema stesso, consentendo alle organizzazioni di migliorare i modelli, mantenere la conformità e fidarsi dei sistemi di AI in produzione.

Domande frequenti

Qual è la differenza tra human in the loop e human on the loop?

Human in the loop (HITL) significa che l'AI si interrompe e attende che una persona verifichi o approvi una decisione prima di agire. Human on the loop (HOTL) significa che l'AI agisce autonomamente mentre una persona monitora il sistema e interviene solo se qualcosa non va.

In breve, HITL offre un controllo più rigoroso. HOTL è progettato per scalare.

Qual è un esempio di human in the loop?

Un radiologo che esamina il rilevamento di un tumore da parte di un sistema di AI prima di confermare una diagnosi è un classico esempio di HITL.

Nell'AI aziendale, un altro esempio comune è un agente di AI che si mette in pausa prima di inviare un'e-mail esterna, aggiornare un record di produzione o avviare un workflow, in modo che una persona possa prima approvare l'azione.

La metodologia human in the loop è la stessa cosa di RLHF?

No. HITL è il concetto più ampio. Descrive sistemi in cui le persone contribuiscono a definire il comportamento dell'AI.

Il reinforcement learning from human feedback (RLHF) è una tecnica specifica all'interno di questa categoria più ampia. Nel RLHF, le persone classificano o valutano le risposte del modello durante l'addestramento per facilitarne il fine-tuning.

Ogni sistema RLHF è una forma di HITL, ma HITL include anche attività come l'etichettatura dei dati, la revisione degli output e l'approvazione delle azioni degli agenti.

Quando si dovrebbe usare l'approccio human in the loop?

HITL è particolarmente utile quando le decisioni sono ad alto rischio, quando gli errori comportano conseguenze reali o quando i sistemi di AI si trovano di fronte a situazioni per cui non sono stati addestrati.

È importante anche nei settori regolamentati, dove le organizzazioni necessitano di una supervisione umana documentata.

Tuttavia, HITL non è sempre la soluzione ideale. Per attività rapide, a basso rischio o con volumi estremamente elevati, i sistemi completamente automatizzati potrebbero essere più indicati.

In che modo l'approccio human in the loop si applica agli agenti di AI?

Gli agenti di AI alzano la posta in gioco perché possono intraprendere azioni reali all'interno dei sistemi aziendali, come inviare messaggi, aggiornare database o avviare workflow in modo automatico.

Ecco perché molti agenti sono progettati per mettersi in pausa prima di compiere azioni ad alto impatto e richiedere prima l'approvazione umana.

Man mano che gli agenti di AI passano dalle demo agli ambienti di produzione reali, percorsi di escalation chiari e una supervisione significativa stanno diventando rapidamente prassi standard. Databricks Agent Bricks include l'Agent Learning from Human Feedback (ALHF) per aiutare le organizzazioni a creare loop di feedback scalabili per agenti e applicazioni di AI.

Inizia a utilizzare un'AI governata e allineata all'intervento umano su Databricks

HITL aiuta i team a mantenere l'AI accurata, affidabile e responsabile nel passaggio dei sistemi dalle demo agli ambienti di produzione reali. Funziona al meglio quando il feedback umano, la governance e la valutazione risiedono tutti all'interno della stessa piattaforma, anziché in strumenti e workflow scollegati.

Scopri in che modo Agent Bricks utilizza il feedback umano e la valutazione continua per creare agenti di AI di alta qualità sui tuoi dati aziendali.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog