Ir al contenido principal
Servicios financieros

Gestión de Riesgos de Modelos en 2026: Una Guía para Banqueros sobre la Guía Revisada Interinstitucional

Por qué la gestión eficaz del riesgo de modelos ahora depende de la arquitectura de la plataforma, no del cumplimiento de procedimientos.

por Pavithra Rao, Jennifer Miller, Chaitanya Varanasi y Kim Hatton

  • Qué cambió — El 17 de abril de 2026, la Reserva Federal, la FDIC y la OCC reemplazaron SR 11-7, OCC 2011-12, FIL-22-2017 y las emisiones relacionadas de BSA/AML con un marco más basado en el riesgo y principios para la gestión del riesgo de modelos.
  • Por qué importa — Los reguladores están indicando que los modelos son ahora centrales en cómo los bancos toman decisiones, y que el riesgo de modelos debe ser gobernado como el riesgo de crédito o de mercado — con una clara jerarquía, proporcionalidad y un desafío efectivo.
  • Qué hay en esta publicación — La visión de un profesional de una arquitectura de referencia en Databricks que convierte esas expectativas en un ciclo de vida único y gobernado tanto para ML clásico como para GenAI, de modo que la evidencia de una buena gobernanza se genera como subproducto del trabajo normal.
  • Para quién es — Jefes de MRM, líderes de validación, ejecutivos de riesgo y líderes de ciencia de datos / IA en bancos y otras instituciones financieras reguladas.

¿Qué Cambió en la Guía MRM de Abril de 2026?

El 17 de abril de 2026, la Reserva Federal, la FDIC y la OCC rescindieron SR 11-7, OCC 2011-12, FIL-22-2017 y las emisiones relacionadas de BSA/AML, reemplazándolas con un marco de gestión de riesgos de modelos más explícitamente basado en riesgos y principios.

Esta no es una actualización técnica menor. Refleja una visión más amplia de que los modelos son centrales en cómo los bancos toman decisiones, y que el riesgo de los modelos debe ser gobernado con la misma seriedad que el riesgo de crédito o de mercado.

Para los profesionales dentro de un banco, eso se traduce en un conjunto concreto de expectativas: el inventario se clasifica por materialidad, los controles se aplican de manera proporcional y nuestro ciclo de vida es defendible de principio a fin.

En una pila tradicional, esa respuesta requiere de dos a tres trimestres de trabajo de sprint: migración de inventario, reescritura de plantillas de validación, nuevas canalizaciones de monitoreo, actualización de documentación, incorporación de modelos de proveedores y flujos de trabajo paralelos para GenAI y sistemas agénticos que los supervisores ahora consideran incluidos por principio. Cada flujo de trabajo es un proyecto, un ticket de cambio y una exposición de auditoría.

La verdadera pregunta no es "¿cómo construimos el cumplimiento de esta guía?" Es "¿qué decisión de plataforma hace que el próximo cambio de guía, y el siguiente, sea un ejercicio de configuración en lugar de un programa?"

Lo que Realmente Exige el Nuevo Marco MRM

La revisión de 2026 es menos una reescritura de controles que una resegmentación de cómo los aplicamos. Cinco cambios son importantes para los profesionales:

  1. Adaptación basada en riesgos — Cada modelo debe estar en un nivel que refleje el riesgo inherente, la exposición y el propósito. Los modelos de nivel 1 (materiales) tienen supervisión completa del ciclo de vida; los niveles inferiores obtienen controles proporcionales y más ligeros, pero solo si podemos evidenciar la clasificación en sí misma.
  2. Pensamiento de ciclo de vida — Desarrollo, validación, implementación, monitoreo y retiro son una cadena gobernada. Los supervisores esperan linaje a través de cada eslabón, no instantáneas en los puntos de entrega.
  3. Desafío efectivo — Los modelos de desafío, el análisis de resultados, la evaluación comparativa y las pruebas de sensibilidad deben ser versionados y reproducibles, no un memorando único.
  4. Monitoreo continuo — La deriva del rendimiento, la deriva de los datos y la estabilidad deben rastrearse continuamente, con umbrales mapeados a la materialidad.
  5. Los principios se extienden a la IA — GenAI y los sistemas agénticos están formalmente fuera de alcance, pero heredan los principios. Los supervisores y la auditoría interna ya están aplicando las expectativas de MRM por analogía a asistentes de suscripción basados en LLM, agentes de triaje de AML y copilotos de cara al cliente.

El hilo conductor: la evidencia debe producirse como un subproducto de cómo se construyen los modelos, no reconstruirse después del hecho. Ese es un problema de plataforma, no un problema de política.

Nuestro Enfoque

Tomamos la intención regulatoria como dada. En lugar de debatir la guía, nos centramos en el modelo operativo que implica:

  • ¿Cómo pueden los bancos hacer que la clasificación de riesgos, la proporcionalidad y el desafío efectivo sean sistémicos, no manuales?
  • ¿Cómo se puede generar evidencia de buena gobernanza automáticamente a partir del trabajo diario con modelos?
  • ¿Qué tipo de decisión de plataforma convierte la próxima actualización de la guía de un programa de varios trimestres en un cambio de configuración?

El resto de este artículo describe una arquitectura de referencia en Databricks, diseñada para satisfacer esas necesidades en un único sustrato gobernado, porque en la práctica, estos requisitos no se pueden componer de manera confiable a partir de una colección de soluciones puntuales sin recrear la fragmentación que el MRM pretende eliminar.

Mapeamos las expectativas de MRM revisadas a capacidades concretas de Databricks para que los bancos puedan ver cómo operacionalizar estos principios en el Lakehouse.

La Arquitectura de Referencia de Databricks para MRM

La arquitectura a continuación es lo que hace que "un gráfico de linaje" sea más que un eslogan. Cada etapa del ciclo de vida se resuelve en un objeto gobernado en Unity Catalog. Los mismos primitivos sirven para ML clásico y GenAI, por lo que el equipo de MRM opera un marco, no dos.

Cuatro Capas, Un Sustrato

Capa

Qué Contiene

Por Qué le Importa al Equipo de MRM

Capa de Gobernanza

Unity Catalog

Control de Acceso Basado en Atributos (ABAC)

Gráfico de linaje de extremo a extremo

Registros de auditoría

Una única fuente de verdad para inventario, propiedad, nivel y acceso. El linaje hace que "¿cómo se produjo esta predicción?" sea respondible en una sola consulta.

Capa de Datos y Características

Delta Lake (bronce / plata / oro)

Canalizaciones Declarativas de Lakeflow

Databricks Feature Store

Expectativas de calidad de datos

La calidad de los datos se evidencia, no se afirma. Las definiciones de características están versionadas, por lo que la consistencia entre entrenamiento y servicio es demostrable.

Capa de Modelos

MLflow Tracking (experimentos)

UC Model Registry (versiones, alias, etiquetas)

Mosaic AI Model Serving

Agent Bricks / Mosaic Agent Framework

Los modelos clásicos y los agentes GenAI se registran de la misma manera, se promueven de la misma manera y llevan las mismas etiquetas de nivel.

Capa de Aseguramiento

Lakehouse Monitoring (deriva, rendimiento)

AI Gateway (barreras de protección, PII, límites de tasa)

Databricks Apps (flujo de trabajo del validador)

Espacios Genie (preguntas y respuestas del examinador)

El monitoreo, la revisión del validador y la interacción del examinador leen todos del mismo inventario gobernado, sin herramientas paralelas.

Ancla arquitectónica

La capa de gobernanza no es algo que se añade al final, es en lo que escriben todas las demás capas. Por eso un cambio de nivel se convierte en una actualización de metadatos en lugar de una migración, y por qué un examinador obtiene una respuesta de un solo sistema.

Mapeo del Ciclo de Vida de ML a Evidencia MRM

Cada etapa del ciclo de vida produce un tipo específico de evidencia que la nueva guía espera. La arquitectura de Databricks convierte esa evidencia en un subproducto estructurado del trabajo normal, no en un pase de cumplimiento separado al final.

Etapa del Ciclo de Vida

Expectativa MRM

Componente Databricks

Evidencia Producida

Adquisición de datos

Calidad de los datos, procedencia, idoneidad para el propósito.

Unity Catalog, Delta Lake, Canalizaciones Declarativas de Lakeflow con expectativas.

Linaje a nivel de columna, métricas de DQ, instantáneas reproducibles en un momento dado.

Ingeniería de características

Definiciones de características consistentes y versionadas entre entrenamiento y servicio.

Feature Store en UC, tiendas en línea/fuera de línea.

Historial de versiones de características, lista de modelos consumidores, detección de sesgos.

Desarrollo de modelos

Reproducibilidad, supuestos documentados, justificación de la técnica.

MLflow Tracking con Git, registro automatizado de experimentos.

Historial de ejecución, hiperparámetros, métricas, commit de código, entorno.

Validación independiente

Campeón/retador, análisis de sensibilidad, pruebas de sesgo y equidad.

MLflow Evaluate, espacio de trabajo de validador separado, Databricks Apps para flujo de trabajo.

Artefactos del retador versionados, métricas de equidad, aprobación del validador vinculada a la versión del modelo.

Implementación

Promoción controlada, capacidad de reversión, aprobación basada en roles.

Alias de UC Model Registry, Mosaic AI Model Serving, políticas de promoción ABAC.

Historial de promoción, identidad del aprobador, ruta de reversión atómica.

Monitoreo

Monitoreo continuo de rendimiento y deriva, proporcional al nivel.

Lakehouse Monitoring en tablas de inferencia, métricas de equidad personalizadas.

Paneles de deriva, incumplimientos de umbrales, historial de alertas en un único sistema de registro.

Documentación

Documentación actual de desarrollo, validación y cambios.

Tarjetas de modelo generadas automáticamente, espacios Genie para consultas en lenguaje natural.

Documentación viva vinculada a la versión del modelo de producción, no a un PDF del último trimestre.

Retirada

Desmantelamiento controlado con registro de auditoría conservado.

Estados del ciclo de vida del registro, retención de artefactos de entrenamiento en Delta Lake.

Registro de retirada, estado final de monitoreo, linaje conservado.

Cualquier capacidad individual se puede ensamblar a partir de herramientas puntuales. El punto arquitectónico es que en Databricks son un único grafo de linaje. El examinador cuestionó "¿qué datos entrenaron este modelo, quién lo validó, cómo ha derivado y qué decisiones de producción lo utilizaron?" es una única consulta, no un ejercicio de recopilación de pruebas entre equipos.

Patrones Clave de Gobernanza

5.1 Nivel de Materialidad como Metadatos, No Migración

Cada modelo en el registro tiene etiquetas estructuradas: nivel de materialidad, línea de negocio, versión de la guía, validador asignado, fecha de última validación. Estas etiquetas no son decoración: son leídas por las políticas de acceso, los umbrales de monitoreo y el panel de MRM a nivel de portafolio.

Cuando los supervisores refinan las definiciones de materialidad, o cuando la política interna lo hace, el nivel cambia. En esta arquitectura, un cambio de nivel es una actualización de etiqueta, aplicada en minutos, visible en todos los controles posteriores. No hay re-plataforma, ni reescritura de pipelines, ni redacción de documentación.

5.2 Proporcionalidad Forzada a Través de ABAC

La proporcionalidad es el principio central de la guía, y históricamente el más difícil de evidenciar. En Databricks, se convierte en una regla de acceso basada en atributos vinculada a la etiqueta de nivel.

En la práctica, esto se parece a simples políticas ABAC en objetos de Unity Catalog. Por ejemplo:

• Modelos de materialidad Nivel-1: la promoción a producción requiere la aprobación del grupo independiente de validadores de MRM. Se aplica doble control, no se fomenta.

• Modelos estándar Nivel-2: el líder del equipo más el validador pueden promover. Supervisión más ligera, aún auditable.

• Modelos de baja materialidad Nivel-3: el propietario del modelo puede promover dentro de su propio espacio de trabajo; los umbrales de monitoreo son más flexibles; los requisitos de documentación se reducen.

El banco no necesita un documento de política que explique cómo funciona la proporcionalidad. Los registros de control de acceso lo explican, para cada modelo, para cada promoción, durante todo el tiempo que dure la ventana de retención de auditoría.

En la práctica, esto se traduce directamente en lógica de política ABAC en objetos de Unity Catalog:

SI model.tier = 'Tier1'

ENTONCES require_approver_role IN ('MRM_Validator', 'Model_Risk_Committee')

Y require_dual_control = TRUE

La misma etiqueta de nivel también puede impulsar umbrales de monitoreo más estrictos y ciclos de validación más cortos, sin código personalizado por modelo. El banco no necesita un documento de política separado para explicar la proporcionalidad; los registros de control de acceso y la configuración lo demuestran, modelo por modelo, promoción por promoción.

5.3 El Catálogo MRM como Arquitectura de Información

Una jerarquía de catálogo limpia es la decisión de gobernanza más subestimada. Un patrón funcional separa el inventario y la evidencia de los modelos en sí:

  • Catálogo de inventario: contiene metadatos del modelo, aprobaciones del validador, superposiciones de inventario, tablas de cola de validadores.

Las tablas clave en este catálogo siguen un patrón simple:

  • models.inventory: una fila por versión de modelo, con campos como nivel, propietario, version_guia, uso_previsto y procesos_dependientes.

  • models.validation_log: una fila por evento de validación, indexada por model_version_id, con validator_id, validation_scope, issues_found y residual_risk_rating.

  • Catálogo clásico de ML: esquemas por línea de negocio para modelos de crédito, AML, fraude, capital.

  • Catálogo GenAI: puntos finales de LLM y agentes, registrados como modelos de primera clase con registros de herramientas.

  • Catálogo de monitoreo: tablas de métricas de deriva, rendimiento y equidad producidas por Lakehouse Monitoring.

  • Catálogo de evidencia: ejecuciones de desafío, artefactos de validación, tarjetas de modelo, archivos de modelos retirados.

Esta separación permite que el liderazgo de MRM otorgue acceso de solo lectura a la evidencia y al monitoreo sin exponer los datos de entrenamiento subyacentes, un punto crítico común en la preparación de exámenes.

ML Clásico y GenAI Bajo un Mismo Marco

Los bancos ejecutan ambos a la vez: un modelo de PD regido por décadas de práctica de MRM, y un asistente de triaje AML basado en LLM que nadie ha descubierto cómo gobernar todavía. El instinto tradicional es construir un segundo marco para el segundo tipo de modelo. Eso duplica el costo, duplica la superficie de auditoría y garantiza la divergencia.

En Databricks, los sistemas clásicos y GenAI comparten el mismo registro, las mismas etapas del ciclo de vida y el mismo patrón de evidencia, con capacidades específicas de capa donde el tipo de modelo lo exige.

Preocupación del Ciclo de Vida

ML Clásico (crédito, AML, fraude)

Sistemas GenAI y Agentes

Registro

Entrada en UC Model Registry con versión, propietario, etiqueta de nivel.

Mismo registro: puntos finales de LLM y aplicaciones de Agent Bricks registrados como modelos de primera clase con registros de herramientas.

Evaluación

MLflow Evaluate: AUC, KS, PSI, equidad en atributos protegidos.

Evaluación de LLM de MLflow: conexión a tierra, relevancia, toxicidad, LLM-como-juez en criterios específicos del dominio.

Desafío efectivo

Modelos campeón/desafiante, conjuntos de datos de referencia, backtesting.

Variantes de prompt y modelo, conjuntos de evaluación con salidas esperadas, comparación de trazas de agente.

Monitoreo

Lakehouse Monitoring: rendimiento, deriva, equidad en tablas de inferencia.

Seguimiento de MLflow más telemetría de AI Gateway: latencia, costo, tasa de alucinación, tasa de activación de barreras de seguridad.

Acceso y barreras de seguridad

UC ABAC en características, modelos y puntos finales de servicio.

AI Gateway: redacción de PII, límites de tasa, filtros de seguridad, lista blanca de modelos aprobados.

Documentación

Tarjeta de modelo generada automáticamente con linaje de datos y características.

Misma estructura de tarjeta de modelo más versiones de prompt, grafo de agente, registro de herramientas.

Cuando los supervisores extienden los principios de MRM a GenAI, lo cual ya están haciendo, no creamos un segundo marco. Aplicamos el primero.

Tres Audiencias, Una Plataforma

Científicos de Datos y Desarrolladores de Modelos — velocidad sin atajos

• Trabajar en un entorno de notebook gobernado donde el seguimiento, el linaje y el registro de características son automáticos, no casillas de verificación de cumplimiento que se añaden al final.

• Iterar rápidamente en líneas base y patrones de agentes con AutoML y Agent Bricks; cada iteración se registra y es reproducible.

• Entregar más rápido porque la promoción, el monitoreo y la documentación están integrados en el mismo flujo de trabajo, no se transfieren a un equipo separado.

MRM y Validadores Independientes — revisión con contexto completo

• Acceso de solo lectura a los datos de entrenamiento exactos, versiones de características y código que produjeron el modelo, sin copias de datos, sin desactualización.

• Ejecuciones de desafío y de referencia versionadas junto con el campeón; análisis de sensibilidad reproducibles bajo demanda.

• La aprobación es en sí misma un artefacto de primera clase en el registro, vinculado a la versión del modelo, no un memo adjunto a un hilo de correo electrónico.

• Las aplicaciones de Databricks proporcionan un flujo de trabajo de revisión estructurado: cola, comentarios, aprobación, escalada, todo auditable.

Liderazgo de Riesgos y Cumplimiento — supervisión defendible a escala de portafolio

• Un panel único en todo el inventario: distribución de niveles, estado de validación, salud del monitoreo, problemas pendientes, no cinco exportaciones de GRC unidas.

• El nivel y la propiedad se aplican mediante políticas ABAC. La proporcionalidad no es un documento de política; es una regla de acceso con un registro de auditoría.

• Los modelos de terceros y GenAI se registran de la misma manera que los modelos internos. Las brechas de cobertura son visibles antes de que un examinador las encuentre.

La RFI del examinador, de principio a fin

Considere una pregunta representativa de una revisión de supervisión: "Muéstrenos la evidencia de validación, el rendimiento de producción y el historial de deriva para el modelo de PD de crédito durante los últimos doce meses, segmentado por línea de negocio."

En una pila fragmentada, este es un ejercicio de recopilación de evidencia de dos semanas en el registro, el data lake, la herramienta de BI y el sistema GRC, cada uno con su propio modelo de identidad y frescura de datos. En la arquitectura de referencia de Databricks:

• La evidencia de validación reside en el catálogo de inventario, vinculada a la versión del modelo.

• El rendimiento de producción y el historial de deriva residen en el catálogo de monitoreo, escrito continuamente por Lakehouse Monitoring.

• La línea de negocio es una etiqueta en el modelo y una dimensión de segmentación en el monitor.

• El espacio Genie sobre el catálogo MRM responde a la pregunta en lenguaje natural, con filtros de acceso a nivel de fila que garantizan que el examinador solo vea aquello a lo que tiene derecho.

El tiempo de respuesta pasa de semanas a horas. Más importante aún, la evidencia es la misma que utiliza el propio equipo de MRM del banco, por lo que no hay discrepancias entre lo que el banco informa internamente y lo que muestra al examinador.

Por qué Databricks — Las cinco razones del banquero

  1. Los cambios de política se convierten en cambios de metadatos — Cuando las definiciones de materialidad, los umbrales de nivel o los roles del validador cambian, las etiquetas y las políticas de acceso se actualizan en Unity Catalog. Sin re-plataforma, sin reescritura de pipelines, sin actualizaciones de documentación.
  2. Un rastro de auditoría, no siete — Los datos, las características, los modelos, el monitoreo y la documentación residen en un solo sustrato. Las preguntas del examinador se rastrean de principio a fin en un solo sistema, no a través de un almacén de datos, un almacén de características, un registro, una herramienta de BI y una plataforma GRC.
  3. La proporcionalidad es aplicable — Los modelos de Nivel 1 reciben controles rigurosos, los modelos de Nivel 3 reciben controles ligeros, ambos aplicados por las mismas políticas ABAC. La proporcionalidad se convierte en un hecho defendible y auditable.
  4. GenAI no es un universo paralelo — Los puntos finales clásicos de crédito, AML, fraude, LLM y sistemas agénticos comparten un registro con el mismo conjunto de herramientas de evaluación, monitoreo y documentación. Las brechas de cobertura son visibles, no ocultas en una segunda cadena de herramientas.
  5. Capacidad para ensayar antes de comprometernos — Los prototipos rápidos significan que un nuevo patrón de control se puede probar en un modelo de Nivel 1 en semanas, refinar con MRM y luego escalar. La respuesta regulatoria se convierte en ingeniería iterativa, que es como el banco ya ejecuta todo lo demás.

Cambiando la gestión de riesgos a la izquierda

La guía de 2026 requiere que los bancos "cambien a la izquierda", moviendo los controles de riesgo al principio del ciclo de vida del modelo. Al usar Apache Spark Declarative Pipelines (SDP), la gobernanza se convierte en una parte automatizada del flujo de datos en lugar de un obstáculo manual. En lugar de auditar los modelos después de que se construyen, SDP utiliza expectativas de calidad integradas para bloquear datos no conformes o características inestables antes de que lleguen al Registro de Modelos. Esto garantiza que cada activo en la Arquitectura Medallion® sea compatible por diseño, con un rastro de auditoría completo generado como un subproducto natural del desarrollo. Al automatizar el "desafío efectivo" a través de estos pipelines, los equipos de MRM pueden dedicar menos tiempo a la recopilación manual de datos y más tiempo a la supervisión de alto nivel.

El argumento de la capacidad

Cada respuesta regulatoria se basa en un grupo finito de analistas de MRM, desarrolladores de modelos y validadores. Cómo se gasta esa capacidad es la diferencia entre una plataforma que ayuda y una que frena. Tres beneficios estructurales se derivan de un sustrato unificado:

  • La capacidad deja de consumirse por la integración — En una pila fragmentada, la escasa capacidad de MRM se consume en trabajos de integración: reconciliación de inventarios entre herramientas, reconstrucción de monitoreo, redocumentación de lo que las herramientas ya saben.
  • Las personas se centran en el juicio, no en la plomería — En una plataforma unificada, la capacidad se libera para el trabajo que solo los humanos pueden hacer: juicio sobre la materialidad, desafío efectivo sobre el diseño del modelo, conversación con los examinadores.
  • La gobernanza se convierte en un subproducto, no en un proyecto — El linaje, la documentación, el monitoreo y el control de acceso se producen como un subproducto de cómo se construyen y despliegan los modelos, no como un pase de cumplimiento separado al final.

El argumento estructural para Databricks no es que maneje este cambio de guía más rápido —aunque lo hace— sino que convierte el próximo, y el siguiente, de un programa en una configuración.

Impulsor de valor organizacional

Una limitación notable en la hoja de ruta de IA de un banco no es solo la computación o los datos, sino la capacidad humana de los equipos de riesgo de modelos y el Centro de Excelencia (CoE). A medida que la guía actual amplía la definición de sistemas "similares a modelos" para incluir GenAI y flujos de trabajo agénticos, el volumen de solicitudes de validación superará el número de profesionales calificados.

Capa de automatización de "Primera Pasada"

En lugar de que cada prototipo de LLM requiera una revisión manual a medida, Databricks permite al CoE codificar el estándar del banco en una capa de automatización de primera pasada.

  • Clasificación de Autoservicio — Los desarrolladores utilizan recetas de evaluación estandarizadas de MLflow (toxicidad, conexión, fuga de PII) que se ejecutan automáticamente. Un modelo que no pasa la primera pasada nunca llega al escritorio del CoE.
  • Evidencia Estandarizada — Debido a que la plataforma impone un linaje común y un esquema de documentación, el CoE no pasa semanas limpiando evidencia. Pasan horas revisándola.

El problema práctico es familiar: una unidad de negocio quiere lanzar un asistente de LLM en cuatro semanas, mientras que el CoE tiene una lista de espera de seis meses.

Databricks resuelve esto al permitir que el CoE delegue la ejecución mientras retiene el control. El CoE proporciona el marco de automatización —el monitoreo, las tarjetas de modelo y las métricas que hacen que la supervisión sea repetible. El negocio se mueve a la velocidad de GenAI. La guía de 2026 se convierte de un cuello de botella en una barandilla.

La conclusión

La guía de abril de 2026 no es el último cambio de supervisión que veremos en este ciclo. Los principios de IA agéntica, la supervisión de modelos de terceros y la modelización de riesgos climáticos están en movimiento. La pregunta es si nuestra plataforma convierte cada uno de esos en un proyecto de tres trimestres o un prototipo de cuatro semanas. Esa elección se toma una vez.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.