Perché un'efficace gestione del rischio dei modelli dipende ora dall'architettura della piattaforma, non dalla conformità procedurale.
di Pavithra Rao, Jennifer Miller, Chaitanya Varanasi e Kim Hatton
Il 17 aprile 2026, la Federal Reserve, la FDIC e l'OCC hanno annullato SR 11-7, OCC 2011-12, FIL-22-2017 e le relative emissioni BSA/AML, sostituendole con un quadro di gestione del rischio dei modelli più esplicitamente basato sul rischio e guidato da principi.
Questo non è un aggiornamento tecnico limitato. Riflette una visione più ampia secondo cui i modelli sono centrali per il modo in cui le banche prendono decisioni e che il rischio dei modelli deve essere gestito con la stessa serietà del rischio di credito o di mercato.
Per i professionisti all'interno di una banca, ciò si traduce in un insieme concreto di aspettative: l'inventario è classificato per materialità, i controlli sono applicati proporzionalmente e il nostro ciclo di vita è difendibile end-to-end.
Su uno stack tradizionale, tale risposta richiede da due a tre trimestri di lavoro di sprint: migrazione dell'inventario, riscrittura dei modelli di validazione, nuove pipeline di monitoraggio, aggiornamento della documentazione, onboarding di modelli di terze parti e flussi di lavoro paralleli per GenAI e sistemi agentivi che i supervisori ora considerano inclusi per principio. Ogni flusso di lavoro è un progetto, un ticket di modifica e un'esposizione di audit.
La vera domanda non è "come costruiamo la conformità a questa guida?" È "quale decisione sulla piattaforma rende la prossima modifica della guida - e quella successiva - un esercizio di configurazione invece di un programma?"
La revisione del 2026 è meno una riscrittura dei controlli che una ri-segmentazione di come li applichiamo. Cinque cambiamenti sono importanti per i professionisti:
Il filo conduttore: le prove devono essere prodotte come sottoprodotto di come vengono costruiti i modelli, non ricostruite a posteriori. Questo è un problema di piattaforma, non un problema di policy.
Prendiamo l'intento normativo come dato di fatto. Invece di discutere la guida, ci concentriamo sul modello operativo che implica:
Il resto di questo articolo delinea un'architettura di riferimento su Databricks - progettata per soddisfare queste esigenze su un unico substrato governato, perché in pratica, questi requisiti non possono essere composti in modo affidabile da una raccolta di soluzioni puntuali senza ricreare la frammentazione che l'MRM intende eliminare.
Mappiamo le aspettative MRM riviste sulle funzionalità concrete di Databricks in modo che le banche possano vedere come operazionalizzare questi principi sul Lakehouse.
L'architettura sottostante rende "un grafo di lineage" più di uno slogan. Ogni fase del ciclo di vita si risolve in un oggetto governato in Unity Catalog. Gli stessi primitivi servono sia l'ML classico che GenAI, in modo che il team MRM gestisca un framework, non due.
Livello | Cosa contiene | Perché al team MRM interessa |
Livello di Governance | Unity Catalog Attribute-Based Access Control (ABAC) Grafo di lineage end-to-end Log di audit | Un'unica fonte di verità per inventario, proprietà, livello e accesso. Il lineage rende "come è stata prodotta questa previsione?" rispondibile con una singola query. |
Livello Dati e Feature | Delta Lake (bronze / silver / gold) Lakeflow Declarative Pipelines Databricks Feature Store Aspettative sulla qualità dei dati | La qualità dei dati è dimostrata, non affermata. Le definizioni delle feature sono versionate, quindi la coerenza tra training e serving è dimostrabile. |
Livello Modello | MLflow Tracking (esperimenti) UC Model Registry (versioni, alias, tag) Mosaic AI Model Serving Agent Bricks / Mosaic Agent Framework | I modelli classici e gli agenti GenAI vengono registrati allo stesso modo, promossi allo stesso modo e portano gli stessi tag di livello. |
Livello di Assicurazione | Lakehouse Monitoring (deriva, prestazioni) AI Gateway (guardrail, PII, limiti di frequenza) Databricks Apps (flusso di lavoro validatore) Genie spaces (Q&A esaminatore) | Monitoraggio, revisione del validatore e interazione con l'esaminatore leggono tutti dallo stesso inventario governato - nessuno strumento parallelo. |
Il livello di governance non è qualcosa che viene aggiunto alla fine - è ciò in cui ogni altro livello scrive. Ecco perché una modifica del livello diventa un aggiornamento dei metadati invece di una migrazione, e perché un esaminatore ottiene una risposta da un sistema.
Ogni fase del ciclo di vita produce un tipo specifico di prova che la nuova guida si aspetta. L'architettura Databricks trasforma tale prova in un sottoprodotto strutturato del lavoro normale - non in una fase di conformità separata alla fine.
Fase del ciclo di vita | Aspettativa MRM | Componente Databricks | Evidenza prodotta |
Approvvigionamento dati | Qualità dei dati, provenienza, idoneità allo scopo. | Unity Catalog, Delta Lake, Lakeflow Declarative Pipelines con aspettative. | Lineage a livello di colonna, metriche DQ, snapshot riproducibili in un punto specifico nel tempo. |
Ingegneria delle feature | Definizioni delle feature versionate e coerenti tra training e serving. | Feature Store su UC, store online/offline. | Cronologia delle versioni delle feature, elenco dei modelli consumatori, rilevamento dello skew. |
Sviluppo del modello | Riproducibilità, assunzioni documentate, giustificazione della tecnica. | MLflow Tracking con Git, logging automatico degli esperimenti. | Cronologia delle esecuzioni, iperparametri, metriche, commit del codice, ambiente. |
Validazione indipendente | Champion/challenger, analisi di sensibilità, test di bias e fairness. | MLflow Evaluate, workspace validatore separato, Databricks Apps per il flusso di lavoro. | Artefatti challenger versionati, metriche di fairness, approvazione del validatore legata alla versione del modello. |
Distribuzione | Promozione controllata, capacità di rollback, approvazione basata sui ruoli. | Alias di UC Model Registry, Mosaic AI Model Serving, policy di promozione ABAC. | Cronologia di promozione, identità dell'approvatore, percorso di rollback atomico. |
Monitoraggio | Monitoraggio continuo delle prestazioni e della deriva, proporzionato al livello. | Lakehouse Monitoring su tabelle di inferenza, metriche di fairness personalizzate. | Dashboard di drift, superamento delle soglie, cronologia degli avvisi in un unico sistema di registrazione. |
Documentazione | Documentazione corrente di sviluppo, validazione e modifiche. | Schede modello generate automaticamente, spazi Genie per query in linguaggio naturale. | Documentazione viva collegata alla versione del modello di produzione, non un PDF del trimestre precedente. |
Ritiro | Dismissione controllata con audit trail preservato. | Stati del ciclo di vita del registro, conservazione di Delta Lake degli artefatti di training. | Record di ritiro, stato finale del monitoraggio, lineage preservato. |
Qualsiasi singola funzionalità può essere assemblata da strumenti puntuali. Il punto architetturale è che su Databricks sono un unico grafo di lineage. L'esaminatore ha chiesto "quali dati hanno addestrato questo modello, chi lo ha validato, come è derivato e quali decisioni di produzione lo hanno utilizzato?" è una singola traversata, non un esercizio di raccolta di prove tra team.
Ogni modello nel registro porta tag strutturati: livello di materialità, linea di business, versione della guida, validatore assegnato, data dell'ultima validazione. Questi tag non sono decorazioni, sono letti dalle policy di accesso, dalle soglie di monitoraggio e dalla dashboard MRM a livello di portfolio.
Quando i supervisori perfezionano le definizioni di materialità, o quando la policy interna lo fa, il livello cambia. Su questa architettura, un cambio di livello è un aggiornamento del tag, applicato in pochi minuti, visibile in ogni controllo downstream. Non c'è re-platforming, nessuna riscrittura di pipeline, nessuna riscrittura di documentazione.
La proporzionalità è il principio centrale della guida, e storicamente il più difficile da dimostrare. Su Databricks, diventa una regola di accesso basata sugli attributi collegata al tag di livello.
In pratica, questo assomiglia a semplici policy ABAC sugli oggetti di Unity Catalog. Ad esempio:
• Modelli di livello 1 (Tier-1): la promozione in produzione richiede l'approvazione del gruppo indipendente di validatori MRM. Il doppio controllo è applicato, non incoraggiato.
• Modelli standard di livello 2 (Tier-2): il team lead più il validatore possono promuovere. Supervisione più leggera, comunque verificabile.
• Modelli di basso livello di materialità di livello 3 (Tier-3): il proprietario del modello può promuovere all'interno del proprio workspace; le soglie di monitoraggio sono più flessibili; i requisiti di documentazione sono ridotti.
La banca non ha bisogno di un documento di policy che spieghi come funziona la proporzionalità. I log di controllo degli accessi lo spiegano, per ogni modello, per ogni promozione, per tutto il tempo in cui la finestra di conservazione dell'audit è attiva.
In pratica, questo si traduce direttamente in logica di policy ABAC sugli oggetti di Unity Catalog:
SE model.tier = 'Tier1'
ALLORA require_approver_role IN ('MRM_Validator', 'Model_Risk_Committee')
E require_dual_control = TRUE
Lo stesso tag di livello può anche guidare soglie di monitoraggio più rigorose e cicli di validazione più brevi, senza codice personalizzato per modello. La banca non ha bisogno di un documento di policy separato per spiegare la proporzionalità; i log di controllo degli accessi e la configurazione lo dimostrano, modello per modello, promozione per promozione.
Una gerarchia di catalogo pulita è la decisione di governance singola più sottovalutata. Un pattern praticabile separa l'inventario e le prove dai modelli stessi:
Catalogo inventario — contiene metadati del modello, approvazioni del validatore, overlay dell'inventario, tabelle di coda del validatore.
Le tabelle chiave in questo catalogo seguono uno schema semplice:
models.inventory — una riga per versione del modello, con campi come tier, owner, guidance_version, intended_use e dependent_processes.
models.validation_log — una riga per evento di validazione, indicizzata per model_version_id, con validator_id, validation_scope, issues_found e residual_risk_rating.
Catalogo ML classico — schemi per linea di business per modelli di credito, AML, frode, capitale.
Catalogo GenAI — endpoint LLM e agenti, registrati come modelli di prima classe con registri di strumenti.
Catalogo di monitoraggio — tabelle di metriche di drift, performance e fairness prodotte da Lakehouse Monitoring.
Catalogo delle prove — esecuzioni di sfidanti, artefatti di validazione, schede modello, archivi di modelli ritirati.
Questa separazione consente alla leadership MRM di concedere l'accesso in sola lettura alle prove e al monitoraggio senza esporre i dati di training sottostanti, un punto critico comune nella preparazione agli esami.
Le banche eseguono entrambi contemporaneamente: un modello PD governato da decenni di pratica MRM e un assistente di triage AML basato su LLM che nessuno ha ancora capito come governare. L'istinto tradizionale è costruire un secondo framework per il secondo tipo di modello. Ciò raddoppia il costo, raddoppia la superficie di audit e garantisce divergenza.
Su Databricks, classico e GenAI condividono lo stesso registro, le stesse fasi del ciclo di vita e lo stesso pattern di prove, con funzionalità specifiche per livello dove il tipo di modello le richiede.
Preoccupazione per il Ciclo di Vita | ML Classico (credito, AML, frode) | GenAI e Sistemi Agentici |
Registrazione | Voce UC Model Registry con versione, proprietario, tag di livello. | Stesso registro — endpoint LLM e app Agent Bricks registrati come modelli di prima classe con registri di strumenti. |
Valutazione | MLflow Evaluate: AUC, KS, PSI, fairness su attributi protetti. | Valutazione LLM di MLflow: groundedness, pertinenza, tossicità, LLM-come-giudice su criteri specifici del dominio. |
Sfida efficace | Modelli Champion/Challenger, set di dati di benchmark, backtesting. | Varianti di prompt e modello, set di valutazione con output attesi, confronto dei trace dell'agente. |
Monitoraggio | Lakehouse Monitoring: performance, drift, fairness su tabelle di inferenza. | MLflow tracing più telemetria AI Gateway: latenza, costo, tasso di allucinazione, tasso di attivazione delle guardrail. |
Accesso e Guardrail | UC ABAC su feature, modelli ed endpoint di serving. | AI Gateway: redazione PII, limiti di frequenza, filtri di sicurezza, allowlist di modelli approvati. |
Documentazione | Scheda modello generata automaticamente con lineage di dati e feature. | Stessa struttura della scheda modello più versioni dei prompt, grafo dell'agente, registro degli strumenti. |
Quando i supervisori estendono i principi MRM a GenAI, cosa che stanno già facendo, non creiamo un secondo framework. Applichiamo il primo.
• Lavora in un ambiente notebook governato dove tracciamento, lineage e registrazione delle feature sono automatici, non checkbox di conformità aggiunti alla fine.
• Itera rapidamente su baseline e pattern agentici con AutoML e Agent Bricks; ogni iterazione è registrata e riproducibile.
• Distribuisci più velocemente perché promozione, monitoraggio e documentazione sono integrati nello stesso workflow, non passati a un team separato.
• Accesso in sola lettura ai dati di training esatti, alle versioni delle feature e al codice che ha prodotto il modello, senza copie di dati, senza obsolescenza.
• Esecuzioni Challenger e benchmark versionate accanto al campione; analisi di sensibilità riproducibili su richiesta.
• L'approvazione è essa stessa un artefatto di prima classe nel registro, collegato alla versione del modello, non un memo allegato a un thread di email.
• Le App Databricks forniscono un workflow di revisione strutturato: coda, commenti, approvazione, escalation, tutto verificabile.
• Un'unica dashboard sull'inventario: distribuzione dei livelli, stato della validazione, salute del monitoraggio, problemi in sospeso, non cinque esportazioni GRC messe insieme.
• Livelli e proprietà applicati tramite policy ABAC. La proporzionalità non è un documento di policy, ma una regola di accesso con un log di controllo.
• Modelli di terze parti e GenAI registrati allo stesso modo dei modelli interni. Le lacune di copertura sono visibili prima che vengano individuate da un esaminatore.
Consideriamo una domanda rappresentativa da una revisione di vigilanza: "Mostraci le prove di validazione, le prestazioni in produzione e la cronologia delle derive per il modello di credito PD negli ultimi dodici mesi, suddivise per linea di business."
Su uno stack frammentato, questo è un esercizio di raccolta prove di due settimane attraverso il registro, il data lake, lo strumento BI e il sistema GRC — ognuno con il proprio modello di identità e freschezza dei dati. Sulla Databricks reference architecture:
• Le prove di validazione risiedono nel catalogo inventariale, collegate alla versione del modello.
• Le prestazioni in produzione e la cronologia delle derive risiedono nel catalogo di monitoraggio, scritte continuamente da Lakehouse Monitoring.
• La linea di business è un tag sul modello e una dimensione di slicing sul monitor.
• Lo spazio Genie sul catalogo MRM risponde alla domanda in linguaggio naturale, con filtri di accesso a livello di riga che garantiscono che l'esaminatore veda solo ciò a cui ha diritto.
I tempi di elaborazione passano da settimane a ore. Ancora più importante, le prove sono le stesse che utilizza il team MRM della banca — quindi non c'è discrepanza tra ciò che la banca riporta internamente e ciò che mostra all'esaminatore.
La guida del 2026 richiede alle banche di "spostarsi a sinistra", portando i controlli del rischio all'inizio del ciclo di vita del modello. Utilizzando Spark Declarative Pipelines (SDP), la governance diventa una parte automatizzata del flusso di dati anziché un ostacolo manuale. Invece di controllare i modelli dopo che sono stati costruiti, SDP utilizza aspettative di qualità integrate per bloccare dati non conformi o feature instabili prima che raggiungano il Model Registry. Ciò garantisce che ogni asset nella Medallion Architecture sia conforme per progettazione, con un audit trail completo generato come sottoprodotto naturale dello sviluppo. Automatizzando la "sfida efficace" attraverso queste pipeline, i team MRM possono dedicare meno tempo alla raccolta manuale dei dati e più tempo alla supervisione di alto livello.

Ogni risposta normativa attinge da un pool finito di analisti MRM, sviluppatori di modelli e validatori. Come viene spesa quella capacità è la differenza tra una piattaforma che aiuta e una che rallenta. Tre benefici strutturali derivano da un substrato unificato:
L'argomento strutturale per Databricks non è che gestisce questo cambiamento di guida più velocemente — sebbene lo faccia — ma che converte il prossimo, e quello dopo ancora, da un programma a una configurazione.
Un vincolo notevole sulla roadmap AI di una banca non è solo il calcolo o i dati — è la capacità umana dei team di gestione del rischio dei modelli e del Center of Excellence (CoE). Poiché la guida attuale espande la definizione di sistemi "simili a modelli" per includere GenAI e flussi di lavoro agentivi, il volume delle richieste di validazione supererà il numero di professionisti qualificati.
Invece che ogni prototipo LLM richieda una revisione manuale su misura, Databricks consente al CoE di codificare lo standard della banca in uno strato di automazione di primo passaggio.
Il problema pratico è familiare: un'unità di business vuole rilasciare un assistente LLM in quattro settimane, mentre il CoE ha un backlog di sei mesi.
Databricks risolve questo problema consentendo al CoE di delegare l'esecuzione pur mantenendo il controllo. Il CoE fornisce l'infrastruttura di automazione — il monitoraggio, le schede modello e le metriche che rendono ripetibile la supervisione. Il business si muove alla velocità di GenAI. La guida del 2026 si converte da un collo di bottiglia a un guardrail.
La guida di aprile 2026 non è l'ultimo cambiamento di vigilanza che vedremo in questo ciclo. I principi dell'AI agentiva, la supervisione dei modelli di terze parti e la modellazione del rischio climatico sono tutti in movimento. La domanda è se la nostra piattaforma trasformerà ciascuno di questi in un progetto di tre trimestri o in un prototipo di quattro settimane. Quella scelta viene fatta una volta.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.