Warum effektives Modellrisikomanagement jetzt von der Plattformarchitektur abhängt, nicht von der prozeduralen Compliance.
von Pavithra Rao, Jennifer Miller, Chaitanya Varanasi und Kim Hatton
Am 17. April 2026 haben die Federal Reserve, die FDIC und die OCC SR 11-7, OCC 2011-12, FIL-22-2017 und zugehörige BSA/AML-Ausgaben aufgehoben und durch einen expliziter risikobasierten, prinzipiengetriebenen Rahmen für das Management von Modellrisiken ersetzt.
Dies ist keine geringfügige technische Aktualisierung. Sie spiegelt eine breitere Sichtweise wider, dass Modelle zentral für die Entscheidungsfindung von Banken sind und dass Modellrisiken mit der gleichen Ernsthaftigkeit wie Kredit- oder Marktrisiken gesteuert werden müssen.
Für Praktiker innerhalb einer Bank bedeutet dies konkrete Erwartungen: Bestände werden nach Wesentlichkeit gestuft, Kontrollen werden verhältnismäßig angewendet und unser Lebenszyklus ist durchgängig nachvollziehbar.
Bei einem traditionellen Stack bedeutet diese Antwort zwei bis drei Quartale Sprintarbeit: Migration von Beständen, Überarbeitung von Validierungsvorlagen, neue Überwachungspipelines, Aktualisierung der Dokumentation, Onboarding von Anbietermodellen und parallele Arbeitsströme für GenAI und agentenbasierte Systeme, die von Aufsichtsbehörden nach dem Prinzip als relevant erachtet werden. Jeder Arbeitsstrang ist ein Projekt, ein Änderungsantrag und ein Audit-Risiko.
Die eigentliche Frage ist nicht: "Wie bauen wir die Konformität mit dieser Richtlinie auf?" Es ist: "Welche Plattformentscheidung macht die nächste Richtlinienänderung – und die darauf folgende – zu einer Konfigurationsübung statt zu einem Programm?"
Die Überarbeitung von 2026 ist weniger eine Neufassung von Kontrollen als eine Neu-Segmentierung, wie wir sie anwenden. Fünf Änderungen sind für Praktiker wichtig:
Der gemeinsame Nenner: Nachweise müssen als Nebenprodukt der Modellerstellung erbracht werden, nicht nachträglich rekonstruiert werden. Das ist ein Plattformproblem, kein Richtlinienproblem.
Wir nehmen die regulatorische Absicht als gegeben hin. Anstatt die Richtlinie zu diskutieren, konzentrieren wir uns auf das daraus resultierende Betriebsmodell:
Der Rest dieses Artikels skizziert eine Referenzarchitektur auf Databricks – entwickelt, um diese Anforderungen auf einem einzigen, gesteuerten Substrat zu erfüllen, da diese Anforderungen in der Praxis nicht zuverlässig aus einer Sammlung von Einzellösungen zusammengesetzt werden können, ohne die Fragmentierung wiederzubeleben, die MRM beseitigen soll.
Wir ordnen die überarbeiteten MRM-Erwartungen konkreten Databricks-Funktionen zu, damit Banken sehen können, wie sie diese Prinzipien auf dem Lakehouse operationalisieren können.
Die folgende Architektur macht "eine Abstammungsgraph" mehr als nur ein Slogan. Jede Lebenszyklusphase wird zu einem gesteuerten Objekt in Unity Catalog. Dieselben Grundelemente dienen klassischen ML und GenAI, sodass das MRM-Team ein Framework und nicht zwei verwaltet.
Ebene | Was sie enthält | Warum das MRM-Team sich dafür interessiert |
Governance-Ebene | Unity Catalog Attributbasierte Zugriffskontrolle (ABAC) End-to-End-Abstammungsgraph Audit-Protokolle | Eine einzige Quelle der Wahrheit für Bestände, Eigentümerschaft, Stufe und Zugriff. Die Abstammung macht die Frage "Wie wurde diese Vorhersage erstellt?" mit einer einzigen Abfrage beantwortbar. |
Daten- & Feature-Ebene | Delta Lake (Bronze / Silber / Gold) Lakeflow Deklarative Pipelines Databricks Feature Store Datenqualitätsanforderungen | Datenqualität wird nachgewiesen, nicht behauptet. Feature-Definitionen sind versioniert, sodass die Konsistenz zwischen Training und Serving nachweisbar ist. |
Modell-Ebene | MLflow Tracking (Experimente) UC Model Registry (Versionen, Aliase, Tags) Mosaic AI Model Serving Agent Bricks / Mosaic Agent Framework | Klassische Modelle und GenAI-Agenten werden auf die gleiche Weise registriert, gefördert und tragen die gleichen Stufen-Tags. |
Sicherheits-Ebene | Lakehouse Monitoring (Drift, Leistung) AI Gateway (Schutzmaßnahmen, PII, Ratenbegrenzungen) Databricks Apps (Validierungs-Workflow) Genie-Bereiche (Prüfer-Fragen und Antworten) | Überwachung, Prüferprüfung und Interaktion mit Prüfern greifen auf dieselben gesteuerten Bestände zu – keine parallelen Werkzeuge. |
Die Governance-Ebene ist nichts, was am Ende angefügt wird – sie ist das, in das jede andere Ebene schreibt. Deshalb wird eine Stufenänderung zu einer Metadatenaktualisierung statt zu einer Migration, und deshalb erhält ein Prüfer eine einzige Antwort aus einem einzigen System.
Jede Lebenszyklusphase erzeugt eine spezifische Art von Nachweis, die die neue Richtlinie erwartet. Die Databricks-Architektur wandelt diesen Nachweis in ein strukturiertes Nebenprodukt der normalen Arbeit um – nicht in einen separaten Compliance-Durchlauf am Ende.
Lebenszyklusphase | MRM-Erwartung | Databricks-Komponente | Erzeugter Nachweis |
Datenbeschaffung | Datenqualität, Herkunft, Eignung für den Zweck. | Unity Catalog, Delta Lake, Lakeflow Deklarative Pipelines mit Erwartungen. | Spalten-Abstammung, DQ-Metriken, reproduzierbare Momentaufnahmen zu bestimmten Zeitpunkten. |
Feature-Engineering | Versionierte, konsistente Feature-Definitionen für Training und Serving. | Feature Store auf UC, Online/Offline-Stores. | Feature-Versionshistorie, Liste der konsumierenden Modelle, Skew-Erkennung. |
Modellentwicklung | Reproduzierbarkeit, dokumentierte Annahmen, Begründung der Technik. | MLflow Tracking mit Git, automatisierte Protokollierung von Experimenten. | Ausführungshistorie, Hyperparameter, Metriken, Code-Commit, Umgebung. |
Unabhängige Validierung | Champion/Challenger, Sensitivitätsanalyse, Bias- & Fairness-Tests. | MLflow Evaluate, separater Validierungs-Workspace, Databricks Apps für Workflow. | Versionierte Challenger-Artefakte, Fairness-Metriken, Validierungs-Genehmigung, gebunden an die Modellversion. |
Bereitstellung | Kontrollierte Beförderung, Rollback-Fähigkeit, rollenbasierte Genehmigung. | UC Model Registry Aliase, Mosaic AI Model Serving, ABAC-Beförderungsrichtlinien. | Beförderungshistorie, Genehmiger-Identität, atomarer Rollback-Pfad. |
Überwachung | Kontinuierliche Überwachung von Leistung und Drift, verhältnismäßig zur Stufe. | Lakehouse Monitoring für Inferenz-Tabellen, benutzerdefinierte Fairness-Metriken. | Drift-Dashboards, Schwellenwertüberschreitungen, Alarmverlauf in einem einzigen Aufzeichnungssystem. |
Dokumentation | Aktuelle Entwicklungs-, Validierungs- und Änderungsdokumentation. | Automatisch generierte Modellkarten, Genie-Bereiche für natürlichsprachliche Abfragen. | Lebendige Dokumentation, die an die Produktionsmodellversion gebunden ist – kein PDF vom letzten Quartal. |
Außerbetriebnahme | Kontrollierte Stilllegung mit gespeichertem Prüfpfad. | Lebenszyklusstatus des Registrierung, Delta Lake-Aufbewahrung von Trainingsartefakten. | Außerbetriebnahme-Datensatz, letzter Überwachungsstatus, gespeicherte Abstammung. |
Jede einzelne Funktion kann aus Punktwerkzeugen zusammengesetzt werden. Der architektonische Punkt ist, dass sie auf Databricks ein einziger Abstammungsgraph sind. Der Prüfer stellte die Frage: „Welche Daten haben dieses Modell trainiert, wer hat es validiert, wie hat es sich verändert und welche Produktionsentscheidungen haben es verwendet?“ ist eine einzige Traversierung – keine abteilungsübergreifende Beweiserhebungsübung.
Jedes Modell im Registrierungssystem verfügt über strukturierte Tags: Wesentlichkeitsstufe, Geschäftsbereich, Leitlinienversion, zugewiesener Prüfer, letztes Validierungsdatum. Diese Tags sind keine Dekoration – sie werden von Zugriffsrichtlinien, Überwachungsschwellenwerten und dem MRM-Dashboard auf Portfolioebene gelesen.
Wenn Vorgesetzte die Wesentlichkeitsdefinitionen verfeinern – oder wenn interne Richtlinien dies tun – ändert sich die Stufe. In dieser Architektur ist eine Stufenänderung eine Tag-Aktualisierung, die in wenigen Minuten angewendet wird und in jeder nachgelagerten Kontrolle sichtbar ist. Es gibt keine Re-Plattformierung, keine Pipeline-Neufassung, keine Neufassung der Dokumentation.
Verhältnismäßigkeit ist das zentrale Prinzip der Leitlinien und historisch am schwierigsten nachzuweisen. Auf Databricks wird sie zu einer attributbasierten Zugriffsregel, die an das Stufentag gebunden ist.
In der Praxis sieht dies wie einfache ABAC-Richtlinien für Unity Catalog-Objekte aus. Zum Beispiel:
• Stufe-1-wesentliche Modelle: Die Beförderung in die Produktion erfordert die Genehmigung der unabhängigen MRM-Prüfergruppe. Doppelte Kontrolle wird erzwungen, nicht gefördert.
• Stufe-2-Standardmodelle: Teamleiter plus Prüfer können befördern. Leichtere Aufsicht, immer noch prüfbar.
• Stufe-3-Modelle mit geringer Wesentlichkeit: Der Modellbesitzer kann innerhalb seines eigenen Arbeitsbereichs befördern; Überwachungsschwellenwerte sind lockerer; Dokumentationsanforderungen sind reduziert.
Die Bank benötigt kein Richtliniendokument, das erklärt, wie Verhältnismäßigkeit funktioniert. Die Zugriffssteuerungs-Protokolle erklären es für jedes Modell, für jede Beförderung, solange das Prüfungsaufbewahrungsfenster läuft.
In der Praxis lässt sich dies direkt in die ABAC-Richtlinienlogik für Unity Catalog-Objekte übersetzen:
WENN model.tier = 'Tier1'
DANN erforderliche_genehmigerrolle IN ('MRM_Validator', 'Model_Risk_Committee')
UND erforderliche_doppelte_kontrolle = WAHR
Dasselbe Stufentag kann auch strengere Überwachungsschwellenwerte und kürzere Validierungszyklen steuern, ohne benutzerdefinierten Code pro Modell. Die Bank benötigt kein separates Richtliniendokument, um die Verhältnismäßigkeit zu erklären; Zugriffssteuerungs-Protokolle und Konfiguration demonstrieren sie, Modell für Modell, Beförderung für Beförderung.
Eine saubere Kataloghierarchie ist die am meisten unterschätzte Governance-Entscheidung. Ein praktikables Muster trennt Inventar und Nachweise von den Modellen selbst:
Inventarkatalog – enthält Modelldaten, Prüfer-Genehmigungen, Inventar-Overlays, Prüfer-Warteschlangentabellen.
Wichtige Tabellen in diesem Katalog folgen einem einfachen Muster:
models.inventory – eine Zeile pro Modellversion, mit Feldern wie Stufe, Besitzer, Leitlinienversion, Verwendungszweck und abhängigen Prozessen.
models.validation_log – eine Zeile pro Validierungsereignis, indiziert nach model_version_id, mit validator_id, validation_scope, gefundenen Problemen und Restrisikobewertung.
Klassischer ML-Katalog – Schemata pro Geschäftsbereich für Kredit-, AML-, Betrugs-, Kapitalmodelle.
GenAI-Katalog – LLM-Endpunkte und Agenten, registriert als erstklassige Modelle mit Tool-Registrierungen.
Überwachungskatalog – Drift-, Leistungs- und Fairness-Metrik-Tabellen, die von Lakehouse Monitoring generiert werden.
Nachweiskatalog – Challenger-Läufe, Validierungsartefakte, Modellkarten, archivierte außer Betrieb genommene Modelle.
Diese Trennung ermöglicht es der MRM-Führung, Lesezugriff auf Nachweise und Überwachung zu gewähren, ohne die zugrunde liegenden Trainingsdaten preiszugeben – ein häufiger Stolperstein bei der Prüfungsvorbereitung.
Banken betreiben beides gleichzeitig: ein PD-Modell, das von jahrzehntelanger MRM-Praxis gesteuert wird, und einen LLM-basierten AML-Triage-Assistenten, für den noch niemand eine Steuerung gefunden hat. Der traditionelle Instinkt ist, ein zweites Framework für den zweiten Modelltyp zu bauen. Das verdoppelt die Kosten, verdoppelt die Prüfungsfläche und garantiert Divergenz.
Auf Databricks teilen klassisches ML und GenAI dieselbe Registrierung, dieselben Lebenszyklusphasen und dasselbe Nachweismuster – mit schichtspezifischen Funktionen, wo der Modelltyp sie erfordert.
Lebenszyklus-Anliegen | Klassisches ML (Kredit, AML, Betrug) | GenAI & Agentensysteme |
Registrierung | UC Model Registry-Eintrag mit Version, Besitzer, Stufentag. | Dieselbe Registrierung – LLM-Endpunkte und Agent Bricks-Anwendungen als erstklassige Modelle mit Tool-Registrierungen registriert. |
Bewertung | MLflow Evaluate: AUC, KS, PSI, Fairness über geschützte Attribute hinweg. | MLflow LLM-Bewertung: Bodenständigkeit, Relevanz, Toxizität, LLM-als-Richter nach domänenspezifischen Kriterien. |
Effektive Herausforderung | Champion/Challenger-Modelle, Benchmark-Datensätze, Backtesting. | Prompt- und Modellvarianten, Bewertungsdatensätze mit erwarteten Ausgaben, Vergleich von Agenten-Traces. |
Überwachung | Lakehouse Monitoring: Leistung, Drift, Fairness bei Inferenztabellen. | MLflow-Tracing plus AI Gateway-Telemetrie: Latenz, Kosten, Halluzinationsrate, Auslöserrate für Guardrails. |
Zugriff & Guardrails | UC ABAC für Features, Modelle und Serving-Endpunkte. | AI Gateway: PII-Schwärzung, Ratenbegrenzungen, Sicherheitsfilter, Whitelist für zugelassene Modelle. |
Dokumentation | Automatisch generierte Modellkarte mit Daten- und Feature-Abstammung. | Dieselbe Modellkartenstruktur plus Prompt-Versionen, Agenten-Graph, Tool-Registrierung. |
Wenn Vorgesetzte MRM-Prinzipien auf GenAI anwenden – was sie bereits tun –, richten wir kein zweites Framework ein. Wir wenden das erste an.
• Arbeiten Sie in einer gesteuerten Notebook-Umgebung, in der Tracking, Abstammung und Feature-Registrierung automatisch erfolgen – keine Compliance-Checklisten, die am Ende hinzugefügt werden.
• Iterieren Sie schnell mit AutoML und Agent Bricks über Baselines und agentische Muster; jede Iteration wird protokolliert und ist reproduzierbar.
• Liefern Sie schneller, da Beförderung, Überwachung und Dokumentation in denselben Workflow integriert sind – nicht an ein separates Team übergeben.
• Lesezugriff auf die exakten Trainingsdaten, Feature-Versionen und den Code, der das Modell erzeugt hat – keine Datenkopien, keine Veralterung.
• Challenger- und Benchmark-Läufe versioniert neben dem Champion; Sensitivitätsanalysen auf Abruf reproduzierbar.
• Die Genehmigung ist selbst ein erstklassiges Artefakt im Registrierungssystem, das an die Modellversion gebunden ist – kein Memo, das an einen E-Mail-Thread angehängt ist.
• Databricks Apps bieten einen strukturierten Überprüfungsworkflow: Warteschlange, Kommentare, Genehmigung, Eskalation – alles prüfbar.
• Ein Dashboard über das Inventar: Stufenverteilung, Validierungsstatus, Überwachungszustand, offene Probleme – keine fünf zusammengefügten GRC-Exporte.
• Stufe und Eigentümerschaft werden durch ABAC-Richtlinien durchgesetzt. Proportionalität ist kein Richtliniendokument; es ist eine Zugangsregel mit einem Audit-Protokoll.
• Drittanbieter- und GenAI-Modelle werden auf die gleiche Weise registriert wie interne Modelle. Abdeckungslücken sind sichtbar, bevor ein Prüfer sie findet.
Betrachten Sie eine repräsentative Frage aus einer aufsichtsrechtlichen Überprüfung: "Zeigen Sie uns die Validierungsnachweise, die Produktionsleistung und die Drift-Historie für das Kredit-PD-Modell in den letzten zwölf Monaten, aufgeschlüsselt nach Geschäftsbereich."
Auf einem fragmentierten Stack ist dies eine zweiwöchige Beweiserhebungsübung über die Registrierung, den Data Lake, das BI-Tool und das GRC-System – jedes mit seinem eigenen Identitätsmodell und seiner eigenen Datenaktualität. Auf der Databricks-Referenzarchitektur:
• Die Validierungsnachweise befinden sich im Inventarkatalog und sind an die Modellversion gebunden.
• Produktionsleistung und Drift-Historie befinden sich im Überwachungskatalog und werden kontinuierlich von Lakehouse Monitoring geschrieben.
• Der Geschäftsbereich ist ein Tag am Modell und eine Slicing-Dimension am Monitor.
• Genie space über den MRM-Katalog beantwortet die Frage in natürlicher Sprache, wobei zeilenbasierte Zugriffsfilter sicherstellen, dass der Prüfer nur sieht, wozu er berechtigt ist.
Die Bearbeitungszeit verschiebt sich von Wochen auf Stunden. Wichtiger ist, dass die Nachweise dieselben sind, die das MRM-Team der Bank selbst verwendet – es gibt also keine Diskrepanz zwischen dem, was die Bank intern berichtet, und dem, was sie dem Prüfer zeigt.
Die Leitlinien von 2026 verlangen von Banken, nach links zu verschieben ("shift left"), d. h. Risikokontrollen ganz an den Anfang des Modelllebenszyklus zu verlagern. Durch die Verwendung von Spark Declarative Pipelines (SDP) wird Governance zu einem automatisierten Teil des Datenflusses, anstatt zu einer manuellen Hürde. Anstatt Modelle nach ihrer Erstellung zu prüfen, verwendet SDP integrierte Qualitätserwartungen, um nicht konforme Daten oder instabile Features zu blockieren, bevor sie die Model Registry erreichen. Dies stellt sicher, dass jedes Asset in der Medallion Architektur nach Design konform ist, wobei eine vollständige Audit-Spur als natürliches Nebenprodukt der Entwicklung generiert wird. Durch die Automatisierung der "effektiven Anfechtung" durch diese Pipelines können MRM-Teams weniger Zeit mit manueller Datenerfassung und mehr Zeit mit der übergeordneten Aufsicht verbringen.

Jede regulatorische Reaktion greift auf einen begrenzten Pool von MRM-Analysten, Modelldevlopern und Validatoren zurück. Wie diese Kapazität eingesetzt wird, ist der Unterschied zwischen einer Plattform, die hilft, und einer, die bremst. Drei strukturelle Vorteile ergeben sich aus einem einheitlichen Substrat:
Das strukturelle Argument für Databricks ist nicht, dass es diese Leitlinienänderung schneller bewältigt – obwohl es das tut –, sondern dass es die nächste und die darauf folgende von einem Programm zu einer Konfiguration macht.
Eine bemerkenswerte Einschränkung der KI-Roadmap einer Bank ist nicht nur Rechenleistung oder Daten – es ist die menschliche Kapazität von Model Risk Teams und dem Center of Excellence (CoE). Da die aktuellen Leitlinien die Definition von "modellähnlichen" Systemen auf GenAI und agentische Workflows erweitern, wird das Volumen der Validierungsanfragen den Personalbestand qualifizierter Praktiker übersteigen.
Anstatt dass jeder LLM-Prototyp eine maßgeschneiderte manuelle Überprüfung erfordert, ermöglicht Databricks dem CoE, die Standards der Bank in eine erste Automatisierungsschicht zu kodifizieren.
Das praktische Problem ist bekannt: Eine Geschäftseinheit möchte einen LLM-Assistenten in vier Wochen ausliefern, während das CoE eine sechsmonatige Rückstand hat.
Databricks löst dies, indem es dem CoE ermöglicht, die Ausführung zu delegieren und gleichzeitig die Kontrolle zu behalten. Das CoE stellt das Automatisierungs-Harness bereit – die Überwachung, Modellkarten und Metriken, die die Aufsicht wiederholbar machen. Das Geschäft bewegt sich mit GenAI-Geschwindigkeit. Die Leitlinien von 2026 werden von einem Engpass zu einem Leitplanken umgewandelt.
Die Leitlinien vom April 2026 sind nicht die letzte aufsichtsrechtliche Verschiebung, die wir in diesem Zyklus sehen werden. Agentic AI-Prinzipien, die Aufsicht über Drittanbietermodelle und die Klimarisikomodellierung sind alle in Bewegung. Die Frage ist, ob unsere Plattform jede dieser Änderungen in ein dreivierteljähriges Projekt oder einen vierwöchigen Prototyp verwandelt. Diese Entscheidung wird einmal getroffen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.