Por qué la gestión eficaz del riesgo de modelos ahora depende de la arquitectura de la plataforma, no del cumplimiento de procedimientos.
por Pavithra Rao, Jennifer Miller, Chaitanya Varanasi y Kim Hatton
El 17 de abril de 2026, la Reserva Federal, la FDIC y la OCC rescindieron SR 11-7, OCC 2011-12, FIL-22-2017 y las emisiones relacionadas de BSA/AML, reemplazándolas con un marco de gestión de riesgos de modelos m ás explícitamente basado en riesgos y principios.
Esta no es una actualización técnica menor. Refleja una visión más amplia de que los modelos son centrales en cómo los bancos toman decisiones, y que el riesgo de los modelos debe ser gobernado con la misma seriedad que el riesgo de crédito o de mercado.
Para los profesionales dentro de un banco, eso se traduce en un conjunto concreto de expectativas: el inventario se clasifica por materialidad, los controles se aplican de manera proporcional y nuestro ciclo de vida es defendible de principio a fin.
En una pila tradicional, esa respuesta requiere de dos a tres trimestres de trabajo de sprint: migración de inventario, reescritura de plantillas de validación, nuevas canalizaciones de monitoreo, actualización de documentación, incorporación de modelos de proveedores y flujos de trabajo paralelos para GenAI y sistemas agénticos que los supervisores ahora consideran incluidos por principio. Cada flujo de trabajo es un proyecto, un ticket de cambio y una exposición de auditoría.
La verdadera pregunta no es "¿cómo construimos el cumplimiento de esta guía?" Es "¿qué decisión de plataforma hace que el próximo cambio de guía, y el siguiente, sea un ejercicio de configuración en lugar de un programa?"
La revisión de 2026 es menos una reescritura de controles que una resegmentación de cómo los aplicamos. Cinco cambios son importantes para los profesionales:
El hilo conductor: la evidencia debe producirse como un subproducto de cómo se construyen los modelos, no reconstruirse después del hecho. Ese es un problema de plataforma, no un problema de política.
Tomamos la intención regulatoria como dada. En lugar de debatir la guía, nos centramos en el modelo operativo que implica:
El resto de este artículo describe una arquitectura de referencia en Databricks, diseñada para satisfacer esas necesidades en un único sustrato gobernado, porque en la práctica, estos requisitos no se pueden componer de manera confiable a partir de una colección de soluciones puntuales sin recrear la fragmentación que el MRM pretende eliminar.
Mapeamos las expectativas de MRM revisadas a capacidades concretas de Databricks para que los bancos puedan ver cómo operacionalizar estos principios en el Lakehouse.
La arquitectura a continuación es lo que hace que "un gráfico de linaje" sea más que un eslogan. Cada etapa del ciclo de vida se resuelve en un objeto gobernado en Unity Catalog. Los mismos primitivos sirven para ML clásico y GenAI, por lo que el equipo de MRM opera un marco, no dos.
Capa | Qué Contiene | Por Qué le Importa al Equipo de MRM |
Capa de Gobernanza | Unity Catalog Control de Acceso Basado en Atributos (ABAC) Gráfico de linaje de extremo a extremo Registros de auditoría | Una única fuente de verdad para inventario, propiedad, nivel y acceso. El linaje hace que "¿cómo se produjo esta predicción?" sea respondible en una sola consulta. |
Capa de Datos y Características | Delta Lake (bronce / plata / oro) Canalizaciones Declarativas de Lakeflow Databricks Feature Store Expectativas de calidad de datos | La calidad de los datos se evidencia, no se afirma. Las definiciones de características están versionadas, por lo que la consistencia entre entrenamiento y servicio es demostrable. |
Capa de Modelos | MLflow Tracking (experimentos) UC Model Registry (versiones, alias, etiquetas) Mosaic AI Model Serving Agent Bricks / Mosaic Agent Framework | Los modelos clásicos y los agentes GenAI se registran de la misma manera, se promueven de la misma manera y llevan las mismas etiquetas de nivel. |
Capa de Aseguramiento | Lakehouse Monitoring (deriva, rendimiento) AI Gateway (barreras de protección, PII, límites de tasa) Databricks Apps (flujo de trabajo del validador) Espacios Genie (preguntas y respuestas del examinador) | El monitoreo, la revisión del validador y la interacción del examinador leen todos del mismo inventario gobernado, sin herramientas paralelas. |
La capa de gobernanza no es algo que se añade al final, es en lo que escriben todas las demás capas. Por eso un cambio de nivel se convierte en una actualización de metadatos en lugar de una migración, y por qué un examinador obtiene una respuesta de un solo sistema.
Cada etapa del ciclo de vida produce un tipo específico de evidencia que la nueva guía espera. La arquitectura de Databricks convierte esa evidencia en un subproducto estructurado del trabajo normal, no en un pase de cumplimiento separado al final.
Etapa del Ciclo de Vida | Expectativa MRM | Componente Databricks | Evidencia Producida |
Adquisición de datos | Calidad de los datos, procedencia, idoneidad para el propósito. | Unity Catalog, Delta Lake, Canalizaciones Declarativas de Lakeflow con expectativas. | Linaje a nivel de columna, métricas de DQ, instantáneas reproducibles en un momento dado. |
Ingeniería de características | Definiciones de características consistentes y versionadas entre entrenamiento y servicio. | Feature Store en UC, tiendas en línea/fuera de línea. | Historial de versiones de características, lista de modelos consumidores, detección de sesgos. |
Desarrollo de modelos | Reproducibilidad, supuestos documentados, justificación de la técnica. | MLflow Tracking con Git, registro automatizado de experimentos. | Historial de ejecución, hiperparámetros, métricas, commit de código, entorno. |
Validación independiente | Campeón/retador, análisis de sensibilidad, pruebas de sesgo y equidad. | MLflow Evaluate, espacio de trabajo de validador separado, Databricks Apps para flujo de trabajo. | Artefactos del retador versionados, métricas de equidad, aprobación del validador vinculada a la versión del modelo. |
Implementación | Promoción controlada, capacidad de reversión, aprobación basada en roles. | Alias de UC Model Registry, Mosaic AI Model Serving, políticas de promoción ABAC. | Historial de promoción, identidad del aprobador, ruta de reversión atómica. |
Monitoreo | Monitoreo continuo de rendimiento y deriva, proporcional al nivel. | Lakehouse Monitoring en tablas de inferencia, métricas de equidad personalizadas. | Paneles de deriva, incumplimientos de umbrales, historial de alertas en un único sistema de registro. |
Documentación | Documentación actual de desarrollo, validación y cambios. | Tarjetas de modelo generadas automáticamente, espacios Genie para consultas en lenguaje natural. | Documentación viva vinculada a la versión del modelo de producción, no a un PDF del último trimestre. |
Retirada | Desmantelamiento controlado con registro de auditoría conservado. | Estados del ciclo de vida del registro, retención de artefactos de entrenamiento en Delta Lake. | Registro de retirada, estado final de monitoreo, linaje conservado. |
Cualquier capacidad individual se puede ensamblar a partir de herramientas puntuales. El punto arquitectónico es que en Databricks son un único grafo de linaje. El examinador cuestionó "¿qué datos entrenaron este modelo, quién lo validó, cómo ha derivado y qué decisiones de producción lo utilizaron?" es una única consulta, no un ejercicio de recopilación de pruebas entre equipos.
Cada modelo en el registro tiene etiquetas estructuradas: nivel de materialidad, línea de negocio, versión de la guía, validador asignado, fecha de última validación. Estas etiquetas no son decoración: son leídas por las políticas de acceso, los umbrales de monitoreo y el panel de MRM a nivel de portafolio.
Cuando los supervisores refinan las definiciones de materialidad, o cuando la política interna lo hace, el nivel cambia. En esta arquitectura, un cambio de nivel es una actualización de etiqueta, aplicada en minutos, visible en todos los controles posteriores. No hay re-plataforma, ni reescritura de pipelines, ni redacción de documentación.
La proporcionalidad es el principio central de la guía, y históricamente el más difícil de evidenciar. En Databricks, se convierte en una regla de acceso basada en atributos vinculada a la etiqueta de nivel.
En la práctica, esto se parece a simples políticas ABAC en objetos de Unity Catalog. Por ejemplo:
• Modelos de materialidad Nivel-1: la promoción a producción requiere la aprobación del grupo independiente de validadores de MRM. Se aplica doble control, no se fomenta.
• Modelos estándar Nivel-2: el líder del equipo más el validador pueden promover. Supervisión más ligera, aún auditable.
• Modelos de baja materialidad Nivel-3: el propietario del modelo puede promover dentro de su propio espacio de trabajo; los umbrales de monitoreo son más flexibles; los requisitos de documentación se reducen.
El banco no necesita un documento de política que explique cómo funciona la proporcionalidad. Los registros de control de acceso lo explican, para cada modelo, para cada promoción, durante todo el tiempo que dure la ventana de retención de auditoría.
En la práctica, esto se traduce directamente en lógica de política ABAC en objetos de Unity Catalog:
SI model.tier = 'Tier1'
ENTONCES require_approver_role IN ('MRM_Validator', 'Model_Risk_Committee')
Y require_dual_control = TRUE
La misma etiqueta de nivel también puede impulsar umbrales de monitoreo más estrictos y ciclos de validación más cortos, sin código personalizado por modelo. El banco no necesita un documento de política separado para explicar la proporcionalidad; los registros de control de acceso y la configuración lo demuestran, modelo por modelo, promoción por promoción.
Una jerarquía de catálogo limpia es la decisión de gobernanza más subestimada. Un patrón funcional separa el inventario y la evidencia de los modelos en sí:
Catálogo de inventario: contiene metadatos del modelo, aprobaciones del validador, superposiciones de inventario, tablas de cola de validadores.
Las tablas clave en este catálogo siguen un patrón simple:
models.inventory: una fila por versión de modelo, con campos como nivel, propietario, version_guia, uso_previsto y procesos_dependientes.
models.validation_log: una fila por evento de validación, indexada por model_version_id, con validator_id, validation_scope, issues_found y residual_risk_rating.
Catálogo clásico de ML: esquemas por línea de negocio para modelos de crédito, AML, fraude, capital.
Catálogo GenAI: puntos finales de LLM y agentes, registrados como modelos de primera clase con registros de herramientas.
Catálogo de monitoreo: tablas de métricas de deriva, rendimiento y equidad producidas por Lakehouse Monitoring.
Catálogo de evidencia: ejecuciones de desafío, artefactos de validación, tarjetas de modelo, archivos de modelos retirados.
Esta separación permite que el liderazgo de MRM otorgue acceso de solo lectura a la evidencia y al monitoreo sin exponer los datos de entrenamiento subyacentes, un punto crítico común en la preparación de exámenes.
Los bancos ejecutan ambos a la vez: un modelo de PD regido por décadas de práctica de MRM, y un asistente de triaje AML basado en LLM que nadie ha descubierto cómo gobernar todavía. El instinto tradicional es construir un segundo marco para el segundo tipo de modelo. Eso duplica el costo, duplica la superficie de auditoría y garantiza la divergencia.
En Databricks, los sistemas clásicos y GenAI comparten el mismo registro, las mismas etapas del ciclo de vida y el mismo patrón de evidencia, con capacidades específicas de capa donde el tipo de modelo lo exige.
Preocupación del Ciclo de Vida | ML Clásico (crédito, AML, fraude) | Sistemas GenAI y Agentes |
Registro | Entrada en UC Model Registry con versión, propietario, etiqueta de nivel. | Mismo registro: puntos finales de LLM y aplicaciones de Agent Bricks registrados como modelos de primera clase con registros de herramientas. |
Evaluación | MLflow Evaluate: AUC, KS, PSI, equidad en atributos protegidos. | Evaluación de LLM de MLflow: conexión a tierra, relevancia, toxicidad, LLM-como-juez en criterios específicos del dominio. |
Desafío efectivo | Modelos campeón/desafiante, conjuntos de datos de referencia, backtesting. | Variantes de prompt y modelo, conjuntos de evaluación con salidas esperadas, comparación de trazas de agente. |
Monitoreo | Lakehouse Monitoring: rendimiento, deriva, equidad en tablas de inferencia. | Seguimiento de MLflow más telemetría de AI Gateway: latencia, costo, tasa de alucinación, tasa de activación de barreras de seguridad. |
Acceso y barreras de seguridad | UC ABAC en características, modelos y puntos finales de servicio. | AI Gateway: redacción de PII, límites de tasa, filtros de seguridad, lista blanca de modelos aprobados. |
Documentación | Tarjeta de modelo generada automáticamente con linaje de datos y características. | Misma estructura de tarjeta de modelo más versiones de prompt, grafo de agente, registro de herramientas. |
Cuando los supervisores extienden los principios de MRM a GenAI, lo cual ya están haciendo, no creamos un segundo marco. Aplicamos el primero.
• Trabajar en un entorno de notebook gobernado donde el seguimiento, el linaje y el registro de características son automáticos, no casillas de verificación de cumplimiento que se añaden al final.
• Iterar rápidamente en líneas base y patrones de agentes con AutoML y Agent Bricks; cada iteración se registra y es reproducible.
• Entregar más rápido porque la promoción, el monitoreo y la documentación están integrados en el mismo flujo de trabajo, no se transfieren a un equipo separado.
• Acceso de solo lectura a los datos de entrenamiento exactos, versiones de características y código que produjeron el modelo, sin copias de datos, sin desactualización.
• Ejecuciones de desafío y de referencia versionadas junto con el campeón; análisis de sensibilidad reproducibles bajo demanda.
• La aprobación es en sí misma un artefacto de primera clase en el registro, vinculado a la versión del modelo, no un memo adjunto a un hilo de correo electrónico.
• Las aplicaciones de Databricks proporcionan un flujo de trabajo de revisión estructurado: cola, comentarios, aprobación, escalada, todo auditable.
• Un panel único en todo el inventario: distribución de niveles, estado de validación, salud del monitoreo, problemas pendientes, no cinco exportaciones de GRC unidas.
• El nivel y la propiedad se aplican mediante políticas ABAC. La proporcionalidad no es un documento de política; es una regla de acceso con un registro de auditoría.
• Los modelos de terceros y GenAI se registran de la misma manera que los modelos internos. Las brechas de cobertura son visibles antes de que un examinador las encuentre.
Considere una pregunta representativa de una revisión de supervisión: "Muéstrenos la evidencia de validación, el rendimiento de producción y el historial de deriva para el modelo de PD de crédito durante los últimos doce meses, segmentado por línea de negocio."
En una pila fragmentada, este es un ejercicio de recopilación de evidencia de dos semanas en el registro, el data lake, la herramienta de BI y el sistema GRC, cada uno con su propio modelo de identidad y frescura de datos. En la arquitectura de referencia de Databricks:
• La evidencia de validación reside en el catálogo de inventario, vinculada a la versión del modelo.
• El rendimiento de producción y el historial de deriva residen en el catálogo de monitoreo, escrito continuamente por Lakehouse Monitoring.
• La línea de negocio es una etiqueta en el modelo y una dimensión de segmentación en el monitor.
• El espacio Genie sobre el catálogo MRM responde a la pregunta en lenguaje natural, con filtros de acceso a nivel de fila que garantizan que el examinador solo vea aquello a lo que tiene derecho.
El tiempo de respuesta pasa de semanas a horas. Más importante aún, la evidencia es la misma que utiliza el propio equipo de MRM del banco, por lo que no hay discrepancias entre lo que el banco informa internamente y lo que muestra al examinador.
La guía de 2026 requiere que los bancos "cambien a la izquierda", moviendo los controles de riesgo al principio del ciclo de vida del modelo. Al usar Apache Spark Declarative Pipelines (SDP), la gobernanza se convierte en una parte automatizada del flujo de datos en lugar de un obstáculo manual. En lugar de auditar los modelos después de que se construyen, SDP utiliza expectativas de calidad integradas para bloquear datos no conformes o características inestables antes de que lleguen al Registro de Modelos. Esto garantiza que cada activo en la Arquitectura Medallion® sea compatible por diseño, con un rastro de auditoría completo generado como un subproducto natural del desarrollo. Al automatizar el "desafío efectivo" a través de estos pipelines, los equipos de MRM pueden dedicar menos tiempo a la recopilación manual de datos y más tiempo a la supervisión de alto nivel.

Cada respuesta regulatoria se basa en un grupo finito de analistas de MRM, desarrolladores de modelos y validadores. Cómo se gasta esa capacidad es la diferencia entre una plataforma que ayuda y una que frena. Tres beneficios estructurales se derivan de un sustrato unificado:
El argumento estructural para Databricks no es que maneje este cambio de guía más rápido —aunque lo hace— sino que convierte el próximo, y el siguiente, de un programa en una configuración.
Una limitación notable en la hoja de ruta de IA de un banco no es solo la computación o los datos, sino la capacidad humana de los equipos de riesgo de modelos y el Centro de Excelencia (CoE). A medida que la guía actual amplía la definición de sistemas "similares a modelos" para incluir GenAI y flujos de trabajo agénticos, el volumen de solicitudes de validación superará el número de profesionales calificados.
En lugar de que cada prototipo de LLM requiera una revisión manual a medida, Databricks permite al CoE codificar el estándar del banco en una capa de automatización de primera pasada.
El problema práctico es familiar: una unidad de negocio quiere lanzar un asistente de LLM en cuatro semanas, mientras que el CoE tiene una lista de espera de seis meses.
Databricks resuelve esto al permitir que el CoE delegue la ejecución mientras retiene el control. El CoE proporciona el marco de automatización —el monitoreo, las tarjetas de modelo y las métricas que hacen que la supervisión sea repetible. El negocio se mueve a la velocidad de GenAI. La guía de 2026 se convierte de un cuello de botella en una barandilla.
La guía de abril de 2026 no es el último cambio de supervisión que veremos en este ciclo. Los principios de IA agéntica, la supervisión de modelos de terceros y la modelización de riesgos climáticos están en movimiento. La pregunta es si nuestra plataforma convierte cada uno de esos en un proyecto de tres trimestres o un prototipo de cuatro semanas. Esa elección se toma una vez.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.