Sistemi software autonomi basati su LLM che percepiscono gli ambienti, prendono decisioni e intraprendono azioni attraverso il ragionamento, la pianificazione e l'uso di strumenti
L'Explainable AI, o XAI, si riferisce a tecniche che aiutano le persone a capire come un sistema di AI sia giunto a un output specifico. È particolarmente rilevante per il machine learning e il deep learning, in cui i modelli apprendono pattern dai dati invece di seguire regole scritte da esseri umani.
Man mano che i modelli diventano più potenti, le loro decisioni possono diventare più difficili da tracciare. I modelli di deep learning possono contenere miliardi di parametri, rendendo difficile capire perché abbiano approvato una transazione, segnalato una frode, rifiutato un prestito o rilevato un'anomalia in una MRI. Questo viene spesso definito il problema della "scatola nera".
La XAI aiuta ad aprire quella scatola offrendo ai team modi per valutare se un modello è:
Poiché l'AI assume decisioni sempre più rilevanti, capire perché un modello è giunto a una risposta è importante tanto quanto la risposta stessa. Questo articolo illustra i principali metodi di XAI, le tecniche su cui fanno affidamento i team di dati e AI e come scegliere tra di esse.
Le decisioni in settori come la concessione di prestiti, le assunzioni, la sanità, il rilevamento delle frodi o le assicurazioni possono avere conseguenze importanti per le persone. Gli individui hanno il diritto di sapere perché la loro richiesta è stata rifiutata, una transazione segnalata o un particolare trattamento raccomandato, soprattutto se è stata coinvolta l'AI. La mancanza di trasparenza non è solo un inconveniente. In molti contesti può rappresentare una responsabilità legale. Ecco quattro motivi pratici per cui i metodi di XAI sono importanti:
Il comportamento del modello può anche cambiare nel tempo con il variare dei dati del mondo reale. L'esplicabilità supporta il monitoraggio continuo.
I metodi di XAI rientrano generalmente in due categorie: modelli esplicabili per progettazione e metodi che spiegano un modello a posteriori. Nella prima categoria, la struttura del modello è abbastanza semplice da poter essere letta direttamente. Gli esempi includono alberi di decisione, regressioni lineari o sistemi basati su regole.
Nella seconda, il modello è troppo complesso per essere letto direttamente, quindi viene applicata una tecnica separata dopo l'addestramento per esaminare ciò che il modello sta facendo. Esempi di tecniche potrebbero includere l'esecuzione di esperimenti su un modello già addestrato, l'approssimazione del modello con qualcosa di più semplice o il tracciamento di quali input abbiano influenzato maggiormente un output specifico.
In entrambi i casi, tuttavia, l'analisi non modifica il modello, ma lo interroga.
Il flusso di lavoro di base è il seguente:
Prima di approfondire i singoli metodi, ci sono quattro termini che ricorrono frequentemente nelle discussioni sulla XAI; conoscerli aiuterà a fare chiarezza in seguito.
| Termine | Cosa significa | Esempio |
|---|---|---|
| Modello interpretabile | Un modello abbastanza semplice da poter essere seguito da un essere umano autonomamente, senza bisogno di strumenti aggiuntivi. | Un albero di decisione o una regressione lineare la cui logica può essere letta direttamente. |
| Modello esplicabile | Un modello complesso associato a una tecnica separata che ne spiega il comportamento dopo che è stato addestrato. | Una rete neurale profonda analizzata con SHAP o LIME. |
| Spiegazione globale | Descrive come si comporta un modello nel complesso, su tutti gli input. | "Il reddito e il punteggio di credito sono i due fattori principali in tutte le decisioni sui prestiti." |
| Spiegazione locale | Descrive perché un modello ha generato una specifica previsione. | "A questo richiedente è stato rifiutato il prestito perché il rapporto debito/reddito era troppo elevato." |
I metodi di XAI sono in genere raggruppati in base a come generano le spiegazioni. Le tre descrizioni seguenti coprono le principali tecniche attualmente in uso, nonché i compromessi da considerare in termini di trasparenza, accuratezza e idoneità pratica.
I modelli intrinsecamente interpretabili sono trasparenti per progettazione. La struttura stessa del modello rivela come prende le decisioni, quindi non è necessario alcuno strumento o tecnica aggiuntiva per analizzarne la logica. Gli esempi includono gli alberi di decisione, che seguono un diagramma di flusso di regole sì/no che si possono ripercorrere manualmente, e la regressione lineare e logistica, che assegna un peso numerico a ciascun input in modo da poter vedere esattamente come ogni feature contribuisce all'output. I modelli additivi generalizzati e i sistemi basati su regole funzionano in modo simile.
Il compromesso in questo caso è l'accuratezza. I modelli interpretabili sono facili da spiegare ma spesso meno accurati dei modelli complessi per problemi difficili come il riconoscimento delle immagini o la comprensione del linguaggio. Tuttavia, per i settori altamente regolamentati in cui ogni decisione deve essere difendibile, rappresentano spesso la scelta predefinita.
I metodi post-hoc vengono applicati dopo l'addestramento di un modello. Quando la maggior parte delle persone parla di XAI, si riferisce a questo. Strumenti come SHAP, LIME e i controfattuali rientrano tutti in questa categoria.
I metodi post-hoc sono solitamente l'unica opzione per i modelli di deep learning, i modelli linguistici di grandi dimensioni (LLM) e altri sistemi complessi in cui la matematica sottostante è troppo complessa per essere letta direttamente. Il compromesso, tuttavia, è che le spiegazioni post-hoc sono approssimazioni, non calcoli interni esatti.
Questa categoria si riferisce a metodi che producono un output visivo che mostra quale parte dell'input ha determinato la decisione del modello. Gli esempi includono le mappe di salienza e Grad-CAM, che evidenziano entrambe quali pixel di un'immagine sono stati più rilevanti. Le visualizzazioni dell'attenzione evidenziano su quali parole di una frase si è concentrato il modello. Per i modelli di immagini e di testo, una mappa di calore o un'evidenziazione è spesso più intuitiva di un elenco di numeri, rendendo questi metodi particolarmente utili quando si comunicano i risultati a stakeholder non tecnici. Come per i metodi post-hoc, gli output di visualizzazione dovrebbero essere trattati come segnali informativi, non come prove definitive.
La tabella seguente riassume i metodi di XAI più ampiamente utilizzati, seguiti da descrizioni più dettagliate delle cinque tecniche utilizzate più di frequente dai professionisti del settore.
| Metodo | Ambito | Indipendente dal modello? | Output | Ideale per |
|---|---|---|---|---|
| SHAP | Locale + globale | Sì | Contributo numerico di ciascuna feature a una previsione | Modelli tabulari, modelli basati su alberi, uso generale |
| LIME | Locale | Sì | Un modello surrogato semplice che spiega una singola previsione | Spiegazioni locali rapide per vari tipi di modelli |
| LRP | Locale | No (richiede la struttura interna della rete neurale) | Punteggi di rilevanza tracciati a ritroso attraverso i livelli della rete | Reti neurali profonde, modelli di immagini |
| Gradienti integrati | Locale | No (richiede i gradienti del modello) | Attribuzione a livello di pixel o token | Reti neurali, immagini e testo |
| Mappe di salienza / Grad-CAM | Locale | No | Mappa di calore su un'immagine che mostra le regioni d'influenza | Modelli di computer vision |
| Spiegazioni controfattuali | Locale | Sì | "Cosa dovrebbe cambiare per ottenere un risultato diverso?" | Decisioni che interessano le persone (prestiti, assunzioni) |
| Grafici di dipendenza parziale (PDP) | Globale | Sì | Grafico che mostra come una feature influisce sulle previsioni in media | Comprensione del comportamento generale del modello |
| Importanza delle feature tramite permutazione | Globale | Sì | Elenco ordinato delle feature più importanti a livello globale | Debugging del modello, selezione delle feature |
| Anchor | Locale | Sì | Regole "if-then" (se-allora) che vincolano una previsione | Spiegazioni basate su regole per gli utenti finali |
| TCAV | Globale | No | Quanto un concetto di alto livello influenzi le previsioni | Modelli di immagini, audit a livello di concetto |
| Visualizzazione dell'attenzione | Locale | No (richiede la struttura interna del transformer) | Evidenziazione dei token su cui si è concentrato il modello | LLM, transformer, modelli NLP |
Il metodo XAI noto come SHapley Additive exPlanations (SHAP) assegna a ogni feature di input un punteggio numerico che mostra quanto abbia influenzato una previsione, in positivo o in negativo, rispetto a un valore di riferimento. Chiedi a SHAP perché un prestito è stato rifiutato e potrebbe dirti che il rapporto debito/reddito del richiedente ha ridotto la probabilità di approvazione di 22 punti, mentre la sua storia lavorativa ne ha aggiunti 8. Il metodo si basa sui valori di Shapley della teoria dei giochi cooperativi, un approccio strutturato per distribuire equamente il merito tra i vari fattori, il che conferisce a SHAP una base teorica più solida rispetto alla maggior parte delle alternative.
I principali punti di forza di SHAP sono il fatto di essere indipendente dal modello (model-agnostic) e di produrre spiegazioni sia locali (singola previsione) che globali (modello nel suo complesso). È anche il principale strumento di spiegabilità supportato da Databricks AutoML e dall'autologging di MLflow. Il compromesso riguarda il costo computazionale. SHAP può essere lento su dataset di grandi dimensioni o modelli complessi, e questo aspetto va pianificato di conseguenza.
Il metodo XAI Local Interpretable Model-agnostic Explanations (LIME) seleziona una singola previsione che si desidera comprendere, quindi crea un modello più piccolo e facile da interpretare per analizzare come viene generata tale previsione. Per farlo, LIME modifica leggermente l'input, ripetutamente, e osserva come cambia l'output del modello. Utilizza poi questi risultati per addestrare un surrogato semplificato, in genere un modello lineare, che approssima l'IA analizzata. L'output è un elenco ordinato di feature e della loro influenza direzionale sulla previsione.
LIME funziona su qualsiasi tipo di modello e produce rapidamente spiegazioni singole. Il compromesso è che le spiegazioni possono essere instabili. Poiché LIME utilizza perturbazioni casuali, eseguirlo due volte sulla stessa previsione può produrre risultati significativamente diversi, il che può rappresentare un problema concreto in scenari critici o in contesti in cui è richiesto un audit.
Una spiegazione controfattuale risponde a una domanda diretta: cosa sarebbe dovuto cambiare affinché il modello prendesse una decisione diversa? Ad esempio, l'affermazione: "Se il tuo reddito annuale fosse stato superiore di 10.000 dollari, questa richiesta sarebbe stata approvata." Questo è un controfatto.
Questo tipo di XAI è molto efficace per il pubblico non tecnico perché è traducibile in azioni concrete (actionable). I controfatti si adattano naturalmente al modo in cui le persone pensano al rapporto di causa-effetto e offrono informazioni utili su come agire. Funzionano bene anche all'interno di quadri normativi che prevedono il diritto a una spiegazione, come l'Articolo 22 del GDPR. Il compromesso è solitamente di natura pratica. Un controfatto è utile solo se il cambiamento suggerito è realistico e sotto il controllo della persona. "Se avessi 10 anni in meno" non è una spiegazione traducibile in un'azione pratica.
Le mappe di salienza e Grad-CAM sono tecniche di XAI visiva per modelli basati su immagini. Producono una mappa di calore sovrapposta all'immagine originale che mostra su quali pixel o regioni si è concentrato il modello per formulare la previsione. Nel contesto della diagnostica per immagini, l'output di Grad-CAM sulla classificazione di una radiografia potrebbe mostrare che il modello si è concentrato su una determinata area del polmone, che è esattamente ciò che un radiologo deve verificare prima di potersi fidare del risultato.
Questi metodi sono ampiamente utilizzati nella computer vision, nella diagnostica per immagini, nei sistemi autonomi e nel controllo qualità industriale. Le ricerche hanno dimostrato che le mappe di salienza possono sembrare convincenti pur non riflettendo accuratamente ciò che il modello sta effettivamente facendo. Considerale come un segnale indicativo, non come un risultato definitivo.
I modelli transformer costituiscono l'architettura alla base della maggior parte dei moderni LLM e dispongono di meccanismi di attenzione integrati che pesano il contributo di ciascun token di input rispetto a ciascun token di output. Le visualizzazioni dell'attenzione trasformano questi pesi in una mappa evidenziata sul testo, mostrando su quali parole di input il modello si è basato maggiormente durante la generazione di una risposta specifica.
Le visualizzazioni sono leggibili anche senza competenze specialistiche, il che le rende uno degli strumenti di spiegabilità più accessibili per i LLM. Tuttavia, non sempre rappresentano una spiegazione fedele dell'output finale. Le ricerche hanno dimostrato che le feature con pesi di attenzione elevati non riflettono sempre accuratamente la decisione effettiva del modello.
La scelta del metodo XAI corretto dipende dal modello, dal pubblico e dalla domanda a cui si cerca di rispondere. Il seguente schema può guidare la tua decisione:
I metodi XAI sono potenti, ma non perfetti. Chiunque li distribuisca in produzione dovrebbe comprenderne i limiti.
La maggior parte dei metodi post-hoc come SHAP, LIME o le mappe di salienza approssimano il comportamento del modello anziché rivelare l'esatto calcolo interno. Due metodi diversi applicati alla stessa previsione possono produrre spiegazioni differenti. Considera gli output XAI come indizi, non come prove certe.
Come già accennato, metodi like SHAP e i gradienti integrati possono essere lenti su dataset di grandi dimensioni o modelli complessi. L'esecuzione di spiegazioni complete per ogni previsione in un sistema di produzione ad alto volume potrebbe non essere fattibile, e un'applicazione selettiva solleverebbe dubbi sulla rappresentatività dei dati. Quando valuti quale metodo XAI scegliere, pianifica sia i costi di calcolo che quelli di modellazione.
Alcuni metodi, in particolare LIME, producono risultati diversi in seguito a esecuzioni ripetute sulla stessa previsione, a causa del campionamento casuale nel processo di perturbazione. Questa instabilità rappresenta un problema concreto per i contesti regolamentati o soggetti a audit. Inoltre, gli attacchi di tipo adversarial possono manipolare le spiegazioni post-hoc per nascondere il reale comportamento del modello. Sebbene la ricerca sulle contromisure sia in corso, tali attacchi sono un ulteriore motivo per non considerare le spiegazioni come a prova di manomissione.
I modelli più interpretabili sono spesso i meno accurati su problemi complessi, mentre i modelli più accurati sono spesso i più difficili da spiegare. Questo non è un problema ingegneristico risolvibile, bensì una scelta di progettazione deliberata. Le organizzazioni devono valutare le proprie priorità. Desiderano un modello meno accurato ma completamente trasparente, o un modello black-box più accurato con strumenti XAI integrati? La risposta dovrebbe dipendere dall'importanza della decisione. Settori ad alto rischio come la sanità, i prestiti o la giustizia penale spesso richiedono di dare priorità alla spiegabilità, anche a scapito dell'accuratezza pura.
I metodi di XAI sono già in produzione in settori regolamentati e ad alto rischio. Ecco come i diversi metodi tendono a essere utilizzati nei vari settori:
MLflow, la piattaforma open source per il ciclo di vita del ML creata da Databricks, supporta il tracciamento, il controllo delle versioni dei modelli e la registrazione degli artefatti di spiegazione insieme al modello stesso. Per le varianti di modello supportate, l'autologging di MLflow può acquisire i valori SHAP e i punteggi di importanza delle feature, mantenendo le spiegazioni collegate alla versione specifica del modello e all'esecuzione di addestramento che le ha prodotte. Databricks AutoML genera automaticamente anche grafici SHAP e notebook con i valori di Shapley per i modelli prodotti, offrendo ai team un punto di partenza per la spiegabilità senza configurazioni manuali.
Unity Catalog fornisce il livello di governance che rende le spiegazioni verificabili nel tempo. Questo livello include la lineage del modello, il controllo delle versioni, il controllo degli accessi centralizzato e i log di controllo che consentono ai team di tracciare quali dati hanno addestrato un determinato modello e chi vi ha effettuato l'accesso. Insieme, MLflow e Unity Catalog offrono ai team di dati e AI l'infrastruttura per integrare la spiegabilità nel ciclo di vita del modello anziché aggiungerla come elemento secondario alla fine.
Le spiegazioni XAI sono sempre accurate?
No. La maggior parte dei metodi XAI, in particolare le tecniche post hoc come SHAP e LIME, produce approssimazioni del comportamento del modello, non ricostruzioni esatte del calcolo interno. Due metodi applicati alla stessa previsione possono fornire spiegazioni diverse. Considera i risultati di XAI come indizi, non come prove conclusive. Convalidare le spiegazioni confrontandole con le competenze di dominio e combinare più metodi offre un quadro più affidabile.
Qual è la differenza tra XAI e AI interpretabile?
L'AI interpretabile si riferisce a modelli che sono trasparenti fin dalla progettazione e la cui struttura è abbastanza semplice da essere seguita direttamente. L'AI spiegabile è più ampia e include modelli interpretabili, oltre a complessi modelli black-box abbinati a tecniche separate che ne spiegano il comportamento a posteriori. Un modello interpretabile non ha bisogno di strumenti XAI, a differenza di un modello spiegabile.
Qual è la differenza tra spiegazioni globali e locali?
Una spiegazione globale descrive il comportamento del modello per tutti gli input, ad esempio quali feature sono più importanti in assoluto o quali pattern determinano le previsioni in generale. Una spiegazione locale descrive il motivo per cui il modello ha generato una previsione specifica per un input specifico. Entrambi i tipi sono utili e la migliore pratica XAI consiste nell'utilizzare metodi globali per comprendere il modello e metodi locali per spiegare le singole decisioni.
Qual'è la differenza tra XAI e AI responsabile?
L'AI responsabile è la disciplina più ampia, che copre equità, sicurezza, privacy, trasparenza e responsabilità nell'intero ciclo di vita dell'AI. L'AI spiegabile è l'insieme di metodi che rendono il comportamento del modello trasparente e verificabile. Pertanto, la spiegabilità è necessaria per l'AI responsabile, ma non sufficiente da sola. Un modello può essere spiegabile e presentare comunque bias, non essere sicuro o essere utilizzato in modo improprio.
I metodi XAI possono essere utilizzati sull'AI generativa?
Sì, anche se le tecniche differiscono da quelle utilizzate sui modelli di ML tradizionali. Per i LLM e altri sistemi basati su transformer, la visualizzazione dell'attenzione è l'approccio più diffuso. LIME può essere applicato anche agli input di testo. Detto questo, l'AI generativa presenta sfide di spiegabilità più complesse rispetto ai modelli tabulari o di immagini, poiché i risultati sono più vari, le finestre di contesto sono più lunghe e la relazione tra i token di input e il testo generato è più complessa. La spiegabilità per l'AI generativa è un'area di ricerca attiva e i metodi attuali dovrebbero essere considerati come segnali parziali piuttosto che come spiegazioni complete.
I metodi XAI offrono ai team di dati e AI gli strumenti per creare sistemi che le persone possano comprendere, considerare affidabili e verificare. La scelta del metodo giusto dipende dal modello, dal pubblico e dall'importanza della decisione finale, ma l'obiettivo di fondo è lo stesso: rendere il comportamento dell'AI sufficientemente visibile da poter agire con sicurezza.
Scopri di più su come Databricks supporta un'AI responsabile e governata nel nostro framework di governance dei dati aziendali o nel framework di governance dell'AI di Databricks.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.