25 aprile 2026

Gestione del Rischio dei Modelli nel 2026: Guida per banchieri alla Guida Interagenzia Revisionata

Perché un'efficace gestione del rischio dei modelli dipende ora dall'architettura della piattaforma, non dalla conformità procedurale.

di Pavithra Rao, Jennifer Miller, Chaitanya Varanasi e Kim Hatton

Cosa è cambiato — Il 17 aprile 2026, la Federal Reserve, la FDIC e l'OCC hanno sostituito SR 11-7, OCC 2011-12, FIL-22-2017 e le relative emissioni BSA/AML con un quadro più basato sul rischio e guidato da principi per la gestione del rischio dei modelli.
Perché è importante — I regolatori stanno segnalando che i modelli sono ora centrali nel modo in cui le banche prendono decisioni e che il rischio dei modelli deve essere governato come il rischio di credito o di mercato — con una chiara gerarchia, proporzionalità e una sfida efficace.
Cosa contiene questo post — La visione di un professionista di un'architettura di riferimento su Databricks che trasforma tali aspettative in un unico ciclo di vita governato sia per l'ML classico che per GenAI, in modo che le prove di una buona governance vengano generate come sottoprodotto del lavoro normale.
A chi è rivolto — Capi dell'MRM, responsabili della validazione, dirigenti del rischio e leader della data science / AI nelle banche e in altre istituzioni finanziarie regolamentate.

Cosa è cambiato nella Guida MRM di Aprile 2026

Il 17 aprile 2026, la Federal Reserve, la FDIC e l'OCC hanno annullato SR 11-7, OCC 2011-12, FIL-22-2017 e le relative emissioni BSA/AML, sostituendole con un quadro di gestione del rischio dei modelli più esplicitamente basato sul rischio e guidato da principi.

Questo non è un aggiornamento tecnico limitato. Riflette una visione più ampia secondo cui i modelli sono centrali per il modo in cui le banche prendono decisioni e che il rischio dei modelli deve essere gestito con la stessa serietà del rischio di credito o di mercato.

Per i professionisti all'interno di una banca, ciò si traduce in un insieme concreto di aspettative: l'inventario è classificato per materialità, i controlli sono applicati proporzionalmente e il nostro ciclo di vita è difendibile end-to-end.

Su uno stack tradizionale, tale risposta richiede da due a tre trimestri di lavoro di sprint: migrazione dell'inventario, riscrittura dei modelli di validazione, nuove pipeline di monitoraggio, aggiornamento della documentazione, onboarding di modelli di terze parti e flussi di lavoro paralleli per GenAI e sistemi agentivi che i supervisori ora considerano inclusi per principio. Ogni flusso di lavoro è un progetto, un ticket di modifica e un'esposizione di audit.

La vera domanda non è "come costruiamo la conformità a questa guida?" È "quale decisione sulla piattaforma rende la prossima modifica della guida - e quella successiva - un esercizio di configurazione invece di un programma?"

Cosa richiede effettivamente il nuovo Framework MRM

La revisione del 2026 è meno una riscrittura dei controlli che una ri-segmentazione di come li applichiamo. Cinque cambiamenti sono importanti per i professionisti:

Personalizzazione basata sul rischio - Ogni modello deve trovarsi in un livello che rifletta il rischio intrinseco, l'esposizione e lo scopo. I modelli di livello 1 materiale sono soggetti a supervisione completa del ciclo di vita; i livelli inferiori beneficiano di controlli proporzionati e più leggeri - ma solo se possiamo dimostrare la classificazione stessa.
Pensiero sul ciclo di vita - Sviluppo, validazione, distribuzione, monitoraggio e ritiro sono un'unica catena governata. I supervisori si aspettano una tracciabilità attraverso ogni collegamento, non istantanee nei punti di passaggio.
Sfida efficace - Modelli di sfida, analisi dei risultati, benchmarking e test di sensibilità devono essere versionati e riproducibili - non un memo una tantum.
Monitoraggio continuo - Deriva delle prestazioni, deriva dei dati e stabilità devono essere monitorate continuamente, con soglie mappate alla materialità.
I principi si estendono all'IA - GenAI e sistemi agentivi sono formalmente esclusi, ma ereditano i principi. I supervisori e gli audit interni stanno già applicando le aspettative MRM per analogia agli assistenti di sottoscrizione basati su LLM, agli agenti di triage AML e ai copiloti rivolti ai clienti.

Il filo conduttore: le prove devono essere prodotte come sottoprodotto di come vengono costruiti i modelli, non ricostruite a posteriori. Questo è un problema di piattaforma, non un problema di policy.

Il nostro approccio

Prendiamo l'intento normativo come dato di fatto. Invece di discutere la guida, ci concentriamo sul modello operativo che implica:

Come possono le banche rendere la classificazione del rischio, la proporzionalità e la sfida efficace sistemiche, non manuali?
Come possono essere generate automaticamente prove di buona governance dal lavoro quotidiano sui modelli?
Che tipo di decisione sulla piattaforma trasforma il prossimo aggiornamento della guida da un programma di più trimestri a una modifica della configurazione?

Il resto di questo articolo delinea un'architettura di riferimento su Databricks - progettata per soddisfare queste esigenze su un unico substrato governato, perché in pratica, questi requisiti non possono essere composti in modo affidabile da una raccolta di soluzioni puntuali senza ricreare la frammentazione che l'MRM intende eliminare.

Mappiamo le aspettative MRM riviste sulle funzionalità concrete di Databricks in modo che le banche possano vedere come operazionalizzare questi principi sul Lakehouse.

L'architettura di riferimento Databricks per MRM

L'architettura sottostante rende "un grafo di lineage" più di uno slogan. Ogni fase del ciclo di vita si risolve in un oggetto governato in Unity Catalog. Gli stessi primitivi servono sia l'ML classico che GenAI, in modo che il team MRM gestisca un framework, non due.

Quattro livelli, un substrato

Livello	Cosa contiene	Perché al team MRM interessa
Livello di Governance	Unity Catalog Attribute-Based Access Control (ABAC) Grafo di lineage end-to-end Log di audit	Un'unica fonte di verità per inventario, proprietà, livello e accesso. Il lineage rende "come è stata prodotta questa previsione?" rispondibile con una singola query.
Livello Dati e Feature	Delta Lake (bronze / silver / gold) Lakeflow Declarative Pipelines Databricks Feature Store Aspettative sulla qualità dei dati	La qualità dei dati è dimostrata, non affermata. Le definizioni delle feature sono versionate, quindi la coerenza tra training e serving è dimostrabile.
Livello Modello	MLflow Tracking (esperimenti) UC Model Registry (versioni, alias, tag) Databricks Model Serving Agent Bricks / Mosaic Agent Framework	I modelli classici e gli agenti GenAI vengono registrati allo stesso modo, promossi allo stesso modo e portano gli stessi tag di livello.
Livello di Assicurazione	Lakehouse Monitoring (deriva, prestazioni) AI Gateway (guardrail, PII, limiti di frequenza) Databricks Apps (flusso di lavoro validatore) Genie spaces (Q&A esaminatore)	Monitoraggio, revisione del validatore e interazione con l'esaminatore leggono tutti dallo stesso inventario governato - nessuno strumento parallelo.

Ancora architetturale

Il livello di governance non è qualcosa che viene aggiunto alla fine - è ciò in cui ogni altro livello scrive. Ecco perché una modifica del livello diventa un aggiornamento dei metadati invece di una migrazione, e perché un esaminatore ottiene una risposta da un sistema.

Mappare il ciclo di vita ML all'evidenza MRM

Ogni fase del ciclo di vita produce un tipo specifico di prova che la nuova guida si aspetta. L'architettura Databricks trasforma tale prova in un sottoprodotto strutturato del lavoro normale - non in una fase di conformità separata alla fine.

Fase del ciclo di vita	Aspettativa MRM	Componente Databricks	Evidenza prodotta
Approvvigionamento dati	Qualità dei dati, provenienza, idoneità allo scopo.	Unity Catalog, Delta Lake, Lakeflow Declarative Pipelines con aspettative.	Lineage a livello di colonna, metriche DQ, snapshot riproducibili in un punto specifico nel tempo.
Ingegneria delle feature	Definizioni delle feature versionate e coerenti tra training e serving.	Feature Store su UC, store online/offline.	Cronologia delle versioni delle feature, elenco dei modelli consumatori, rilevamento dello skew.
Sviluppo del modello	Riproducibilità, assunzioni documentate, giustificazione della tecnica.	MLflow Tracking con Git, logging automatico degli esperimenti.	Cronologia delle esecuzioni, iperparametri, metriche, commit del codice, ambiente.
Validazione indipendente	Champion/challenger, analisi di sensibilità, test di bias e fairness.	MLflow Evaluate, workspace validatore separato, Databricks Apps per il flusso di lavoro.	Artefatti challenger versionati, metriche di fairness, approvazione del validatore legata alla versione del modello.
Distribuzione	Promozione controllata, capacità di rollback, approvazione basata sui ruoli.	Alias di UC Model Registry, Databricks Model Serving, policy di promozione ABAC.	Cronologia di promozione, identità dell'approvatore, percorso di rollback atomico.
Monitoraggio	Monitoraggio continuo delle prestazioni e della deriva, proporzionato al livello.	Lakehouse Monitoring su tabelle di inferenza, metriche di fairness personalizzate.	Dashboard di drift, superamento delle soglie, cronologia degli avvisi in un unico sistema di registrazione.
Documentazione	Documentazione corrente di sviluppo, validazione e modifiche.	Schede modello generate automaticamente, spazi Genie per query in linguaggio naturale.	Documentazione viva collegata alla versione del modello di produzione, non un PDF del trimestre precedente.
Ritiro	Dismissione controllata con audit trail preservato.	Stati del ciclo di vita del registro, conservazione di Delta Lake degli artefatti di training.	Record di ritiro, stato finale del monitoraggio, lineage preservato.

Qualsiasi singola funzionalità può essere assemblata da strumenti puntuali. Il punto architetturale è che su Databricks sono un unico grafo di lineage. L'esaminatore ha chiesto "quali dati hanno addestrato questo modello, chi lo ha validato, come è derivato e quali decisioni di produzione lo hanno utilizzato?" è una singola traversata, non un esercizio di raccolta di prove tra team.

Pattern Chiave di Governance

5.1 Livellamento di Materialità come Metadati, Non Migrazione

Ogni modello nel registro porta tag strutturati: livello di materialità, linea di business, versione della guida, validatore assegnato, data dell'ultima validazione. Questi tag non sono decorazioni, sono letti dalle policy di accesso, dalle soglie di monitoraggio e dalla dashboard MRM a livello di portfolio.

Quando i supervisori perfezionano le definizioni di materialità, o quando la policy interna lo fa, il livello cambia. Su questa architettura, un cambio di livello è un aggiornamento del tag, applicato in pochi minuti, visibile in ogni controllo downstream. Non c'è re-platforming, nessuna riscrittura di pipeline, nessuna riscrittura di documentazione.

5.2 Proporzionalità Applicata Tramite ABAC

La proporzionalità è il principio centrale della guida, e storicamente il più difficile da dimostrare. Su Databricks, diventa una regola di accesso basata sugli attributi collegata al tag di livello.

In pratica, questo assomiglia a semplici policy ABAC sugli oggetti di Unity Catalog. Ad esempio:

• Modelli di livello 1 (Tier-1): la promozione in produzione richiede l'approvazione del gruppo indipendente di validatori MRM. Il doppio controllo è applicato, non incoraggiato.

• Modelli standard di livello 2 (Tier-2): il team lead più il validatore possono promuovere. Supervisione più leggera, comunque verificabile.

• Modelli di basso livello di materialità di livello 3 (Tier-3): il proprietario del modello può promuovere all'interno del proprio workspace; le soglie di monitoraggio sono più flessibili; i requisiti di documentazione sono ridotti.

La banca non ha bisogno di un documento di policy che spieghi come funziona la proporzionalità. I log di controllo degli accessi lo spiegano, per ogni modello, per ogni promozione, per tutto il tempo in cui la finestra di conservazione dell'audit è attiva.

In pratica, questo si traduce direttamente in logica di policy ABAC sugli oggetti di Unity Catalog:

IF model.tier = 'Tier1'

THEN require_approver_role IN ('MRM_Validator', 'Model_Risk_Committee')

AND require_dual_control = TRUE

Lo stesso tag di livello può anche guidare soglie di monitoraggio più rigorose e cicli di validazione più brevi, senza codice personalizzato per modello. La banca non ha bisogno di un documento di policy separato per spiegare la proporzionalità; i log di controllo degli accessi e la configurazione lo dimostrano, modello per modello, promozione per promozione.

5.3 Il Catalogo MRM come Architettura Informativa

Una gerarchia di catalogo pulita è la decisione di governance singola più sottovalutata. Un pattern praticabile separa l'inventario e le prove dai modelli stessi:

Catalogo inventario — contiene metadati del modello, approvazioni del validatore, overlay dell'inventario, tabelle di coda del validatore.

Le tabelle chiave in questo catalogo seguono uno schema semplice:

models.inventory — una riga per versione del modello, con campi come tier, owner, guidance_version, intended_use e dependent_processes.
models.validation_log — una riga per evento di validazione, indicizzata per model_version_id, con validator_id, validation_scope, issues_found e residual_risk_rating.
Catalogo ML classico — schemi per linea di business per modelli di credito, AML, frode, capitale.
Catalogo GenAI — endpoint LLM e agenti, registrati come modelli di prima classe con registri di strumenti.
Catalogo di monitoraggio — tabelle di metriche di drift, performance e fairness prodotte da Lakehouse Monitoring.
Catalogo delle prove — esecuzioni di sfidanti, artefatti di validazione, schede modello, archivi di modelli ritirati.

Questa separazione consente alla leadership MRM di concedere l'accesso in sola lettura alle prove e al monitoraggio senza esporre i dati di training sottostanti, un punto critico comune nella preparazione agli esami.

ML Classico e GenAI Sotto un Unico Framework

Le banche eseguono entrambi contemporaneamente: un modello PD governato da decenni di pratica MRM e un assistente di triage AML basato su LLM che nessuno ha ancora capito come governare. L'istinto tradizionale è costruire un secondo framework per il secondo tipo di modello. Ciò raddoppia il costo, raddoppia la superficie di audit e garantisce divergenza.

Su Databricks, classico e GenAI condividono lo stesso registro, le stesse fasi del ciclo di vita e lo stesso pattern di prove, con funzionalità specifiche per livello dove il tipo di modello le richiede.

Preoccupazione per il Ciclo di Vita	ML Classico (credito, AML, frode)	GenAI e Sistemi Agentici
Registrazione	Voce UC Model Registry con versione, proprietario, tag di livello.	Stesso registro — endpoint LLM e app Agent Bricks registrati come modelli di prima classe con registri di strumenti.
Valutazione	MLflow Evaluate: AUC, KS, PSI, fairness su attributi protetti.	Valutazione LLM di MLflow: groundedness, pertinenza, tossicità, LLM-come-giudice su criteri specifici del dominio.
Sfida efficace	Modelli Champion/Challenger, set di dati di benchmark, backtesting.	Varianti di prompt e modello, set di valutazione con output attesi, confronto dei trace dell'agente.
Monitoraggio	Lakehouse Monitoring: performance, drift, fairness su tabelle di inferenza.	MLflow tracing più telemetria AI Gateway: latenza, costo, tasso di allucinazione, tasso di attivazione delle guardrail.
Accesso e Guardrail	UC ABAC su feature, modelli ed endpoint di serving.	AI Gateway: redazione PII, limiti di frequenza, filtri di sicurezza, allowlist di modelli approvati.
Documentazione	Scheda modello generata automaticamente con lineage di dati e feature.	Stessa struttura della scheda modello più versioni dei prompt, grafo dell'agente, registro degli strumenti.

Quando i supervisori estendono i principi MRM a GenAI, cosa che stanno già facendo, non creiamo un secondo framework. Applichiamo il primo.

Tre Costituenti, Una Piattaforma

Data Scientist e Sviluppatori di Modelli — velocità senza scorciatoie

• Lavora in un ambiente notebook governato dove tracciamento, lineage e registrazione delle feature sono automatici, non checkbox di conformità aggiunti alla fine.

• Itera rapidamente su baseline e pattern agentici con AutoML e Agent Bricks; ogni iterazione è registrata e riproducibile.

• Distribuisci più velocemente perché promozione, monitoraggio e documentazione sono integrati nello stesso workflow, non passati a un team separato.

MRM e Validatori Indipendenti — revisione con contesto completo

• Accesso in sola lettura ai dati di training esatti, alle versioni delle feature e al codice che ha prodotto il modello, senza copie di dati, senza obsolescenza.

• Esecuzioni Challenger e benchmark versionate accanto al campione; analisi di sensibilità riproducibili su richiesta.

• L'approvazione è essa stessa un artefatto di prima classe nel registro, collegato alla versione del modello, non un memo allegato a un thread di email.

• Le App Databricks forniscono un workflow di revisione strutturato: coda, commenti, approvazione, escalation, tutto verificabile.

Leadership Rischio e Conformità — supervisione difendibile su scala di portfolio

• Un'unica dashboard sull'inventario: distribuzione dei livelli, stato della validazione, salute del monitoraggio, problemi in sospeso, non cinque esportazioni GRC messe insieme.

• Livelli e proprietà applicati tramite policy ABAC. La proporzionalità non è un documento di policy, ma una regola di accesso con un log di controllo.

• Modelli di terze parti e GenAI registrati allo stesso modo dei modelli interni. Le lacune di copertura sono visibili prima che vengano individuate da un esaminatore.

La Richiesta di Informazioni (RFI) dell'Esaminatore, End to End

Consideriamo una domanda rappresentativa da una revisione di vigilanza: "Mostraci le prove di validazione, le prestazioni in produzione e la cronologia delle derive per il modello di credito PD negli ultimi dodici mesi, suddivise per linea di business."

Su uno stack frammentato, questo è un esercizio di raccolta prove di due settimane attraverso il registro, il data lake, lo strumento BI e il sistema GRC — ognuno con il proprio modello di identità e freschezza dei dati. Sulla Databricks reference architecture:

• Le prove di validazione risiedono nel catalogo inventariale, collegate alla versione del modello.

• Le prestazioni in produzione e la cronologia delle derive risiedono nel catalogo di monitoraggio, scritte continuamente da Lakehouse Monitoring.

• La linea di business è un tag sul modello e una dimensione di slicing sul monitor.

• Lo spazio Genie sul catalogo MRM risponde alla domanda in linguaggio naturale, con filtri di accesso a livello di riga che garantiscono che l'esaminatore veda solo ciò a cui ha diritto.

I tempi di elaborazione passano da settimane a ore. Ancora più importante, le prove sono le stesse che utilizza il team MRM della banca — quindi non c'è discrepanza tra ciò che la banca riporta internamente e ciò che mostra all'esaminatore.

Perché Databricks — Le Cinque Ragioni del Banchiere

Le modifiche alle policy diventano modifiche ai metadati — Quando le definizioni di materialità, le soglie di livello o i ruoli dei validatori cambiano, i tag e le policy di accesso vengono aggiornati in Unity Catalog. Nessun re-platforming, nessuna riscrittura di pipeline, nessun aggiornamento della documentazione.
Un audit trail, non sette — Dati, feature, modelli, monitoraggio e documentazione risiedono su un unico substrato. Le domande dell'esaminatore vengono tracciate end-to-end in un unico sistema — non attraverso un data warehouse, un feature store, un registro, uno strumento BI e una piattaforma GRC.
La proporzionalità è applicabile — I modelli di Tier-1 ricevono controlli rigorosi, i modelli di Tier-3 ricevono controlli leggeri — entrambi applicati dalle stesse policy ABAC. La proporzionalità diventa un fatto difendibile e verificabile.
GenAI non è un universo parallelo — Credito classico, AML, frodi, endpoint LLM e sistemi agentivi condividono un unico registro con lo stesso harness di valutazione, monitoraggio e documentazione. Le lacune di copertura sono visibili, non nascoste in una seconda toolchain.
Capacità di provare prima di impegnarsi — I prototipi veloci significano che un nuovo pattern di controllo può essere testato su un modello di Tier-1 in settimane, perfezionato con MRM, e poi scalato. La risposta normativa diventa ingegneria iterativa — che è come la banca gestisce già tutto il resto.

Spostare la Gestione del Rischio a Sinistra

La guida del 2026 richiede alle banche di "spostarsi a sinistra", portando i controlli del rischio all'inizio del ciclo di vita del modello. Utilizzando Spark Declarative Pipelines (SDP), la governance diventa una parte automatizzata del flusso di dati anziché un ostacolo manuale. Invece di controllare i modelli dopo che sono stati costruiti, SDP utilizza aspettative di qualità integrate per bloccare dati non conformi o feature instabili prima che raggiungano il Model Registry. Ciò garantisce che ogni asset nella Medallion Architecture sia conforme per progettazione, con un audit trail completo generato come sottoprodotto naturale dello sviluppo. Automatizzando la "sfida efficace" attraverso queste pipeline, i team MRM possono dedicare meno tempo alla raccolta manuale dei dati e più tempo alla supervisione di alto livello.

L'Argomento della Capacità

Ogni risposta normativa attinge da un pool finito di analisti MRM, sviluppatori di modelli e validatori. Come viene spesa quella capacità è la differenza tra una piattaforma che aiuta e una che rallenta. Tre benefici strutturali derivano da un substrato unificato:

La capacità smette di essere consumata dall'integrazione — Su uno stack frammentato, la scarsa capacità MRM viene consumata dal lavoro di integrazione — riconciliare inventari tra strumenti, ricostruire il monitoraggio, ridocumentare ciò che gli strumenti già sanno.
Le persone si concentrano sul giudizio, non sull'infrastruttura — Su una piattaforma unificata, la capacità viene liberata per il lavoro che solo gli esseri umani possono fare: giudizio sulla materialità, sfida efficace sulla progettazione del modello, conversazione con gli esaminatori.
La governance diventa un sottoprodotto, non un progetto — La lineage, la documentazione, il monitoraggio e il controllo degli accessi vengono prodotti come sottoprodotto di come i modelli vengono costruiti e distribuiti — non come una passata di conformità separata alla fine.

L'argomento strutturale per Databricks non è che gestisce questo cambiamento di guida più velocemente — sebbene lo faccia — ma che converte il prossimo, e quello dopo ancora, da un programma a una configurazione.

Driver di Valore Organizzativo

Un vincolo notevole sulla roadmap AI di una banca non è solo il calcolo o i dati — è la capacità umana dei team di gestione del rischio dei modelli e del Center of Excellence (CoE). Poiché la guida attuale espande la definizione di sistemi "simili a modelli" per includere GenAI e flussi di lavoro agentivi, il volume delle richieste di validazione supererà il numero di professionisti qualificati.

Strato di Automazione "First Pass"

Invece che ogni prototipo LLM richieda una revisione manuale su misura, Databricks consente al CoE di codificare lo standard della banca in uno strato di automazione di primo passaggio.

Triage Self-Service — Gli sviluppatori utilizzano ricette di valutazione MLflow standardizzate (tossicità, groundedness, fuga di PII) che vengono eseguite automaticamente. Un modello che non supera il primo passaggio non raggiunge mai la scrivania del CoE.
Prove Standardizzate — Poiché la piattaforma impone uno schema comune di lineage e documentazione, il CoE non perde settimane a ripulire le prove. Dedica ore alla loro revisione.

Il problema pratico è familiare: un'unità di business vuole rilasciare un assistente LLM in quattro settimane, mentre il CoE ha un backlog di sei mesi.

Databricks risolve questo problema consentendo al CoE di delegare l'esecuzione pur mantenendo il controllo. Il CoE fornisce l'infrastruttura di automazione — il monitoraggio, le schede modello e le metriche che rendono ripetibile la supervisione. Il business si muove alla velocità di GenAI. La guida del 2026 si converte da un collo di bottiglia a un guardrail.

Il Takeaway

La guida di aprile 2026 non è l'ultimo cambiamento di vigilanza che vedremo in questo ciclo. I principi dell'AI agentiva, la supervisione dei modelli di terze parti e la modellazione del rischio climatico sono tutti in movimento. La domanda è se la nostra piattaforma trasformerà ciascuno di questi in un progetto di tre trimestri o in un prototipo di quattro settimane. Quella scelta viene fatta una volta.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog