Sistemas de software autónomos impulsados por LLM que perciben entornos, toman decisiones y realizan acciones mediante el razonamiento, la planificación y el uso de herramientas
La AI explicable, o XAI, se refiere a las técnicas que ayudan a las personas a comprender cómo un sistema de AI llegó a un resultado específico. Es especialmente relevante para el aprendizaje automático y el aprendizaje profundo, donde los modelos aprenden patrones a partir de datos en lugar de seguir reglas escritas por humanos.
A medida que los modelos se vuelven más potentes, sus decisiones pueden ser más difíciles de rastrear. Los modelos de aprendizaje profundo pueden contener miles de millones de parámetros, lo que dificulta comprender por qué aprobaron una transacción, marcaron un fraude, denegaron un préstamo o detectaron una anomalía en una MRI. Esto a menudo se denomina el problema de la “caja negra”.
La XAI ayuda a abrir esa caja al ofrecer a los equipos formas de evaluar si un modelo es:
A medida que la AI toma decisiones más trascendentales, comprender por qué un modelo llegó a una respuesta es tan importante como la respuesta misma. Este artículo abarca los principales métodos de XAI, las técnicas en las que confían los equipos de datos y AI, y cómo elegir entre ellos.
Las decisiones en ámbitos como la concesión de préstamos, la contratación, la atención médica, la detección de fraudes o los seguros pueden tener consecuencias importantes para las personas. Las personas tienen derecho a saber por qué se rechazó su solicitud, por qué se marcó una transacción o por qué se recomendó un tratamiento en particular, especialmente si la AI estuvo involucrada. La falta de transparencia no es solo un inconveniente; en muchos contextos, puede representar un riesgo legal. A continuación, se presentan cuatro razones prácticas por las que los métodos de XAI son importantes:
El comportamiento del modelo también puede cambiar con el tiempo a medida que varían los datos del mundo real. La explicabilidad facilita el monitoreo continuo.
Los métodos de XAI generalmente se dividen en dos categorías: modelos que son explicables por diseño y métodos que explican un modelo a posteriori (post-hoc). En la primera categoría, la estructura del modelo es lo suficientemente simple como para leerse directamente. Los ejemplos incluyen árboles de decisión, regresiones lineales o sistemas basados en reglas.
En la segunda, el modelo es demasiado complejo para leerse directamente, por lo que se aplica una técnica independiente después del entrenamiento para indagar qué está haciendo el modelo. Las técnicas de ejemplo pueden incluir la realización de experimentos en un modelo ya entrenado, la aproximación del modelo con algo más simple o el rastreo de qué entradas tuvieron la mayor influencia en un resultado específico.
En cualquier caso, sin embargo, el análisis no cambia el modelo, sino que lo interroga.
El flujo de trabajo básico es el siguiente:
Antes de profundizar en los métodos específicos, hay cuatro términos que surgen con frecuencia en las conversaciones sobre XAI, y conocerlos ayudará a aclarar los análisis posteriores.
| Término | Qué significa | Ejemplo |
|---|---|---|
| Modelo interpretable | Un modelo que es lo suficientemente simple como para que un humano lo siga por sí mismo, sin necesidad de herramientas adicionales. | Un árbol de decisión o una regresión lineal cuya lógica se puede leer directamente. |
| Modelo explicable | Un modelo complejo emparejado con una técnica independiente que explica el comportamiento del modelo una vez que ha sido entrenado. | Una red neuronal profunda analizada con SHAP o LIME. |
| Explicación global | Describe cómo se comporta un modelo en general, a través de todas las entradas. | "Los ingresos y la puntuación de crédito son los dos factores principales en todas las decisiones de préstamo". |
| Explicación local | Describe por qué un modelo tomó una predicción específica. | "A este solicitante se le denegó el préstamo porque su relación deuda-ingresos era demasiado alta". |
Los métodos de XAI generalmente se agrupan según cómo generan las explicaciones. Las tres descripciones que siguen abarcan las principales técnicas en uso actualmente, así como las compensaciones que debe considerar con respecto a la transparencia, la precisión y la idoneidad práctica.
Los modelos intrínsecamente interpretables son transparentes por diseño. La propia estructura del modelo revela cómo toma las decisiones, por lo que no se requiere ninguna herramienta o técnica adicional para analizar su lógica. Los ejemplos incluyen los árboles de decisión, que siguen un diagrama de flujo de reglas de sí/no que se pueden recorrer manualmente, y la regresión lineal y logística, que asigna un peso numérico a cada entrada para que pueda ver exactamente cómo contribuye cada característica al resultado. Los modelos aditivos generalizados y los sistemas basados en reglas funcionan de manera similar.
La desventaja aquí es la precisión. Los modelos interpretables son fáciles de explicar, pero a menudo son menos precisos que los modelos complejos para problemas difíciles como el reconocimiento de imágenes o la comprensión del lenguaje. Sin embargo, para industrias altamente reguladas donde cada decisión debe ser defendible, suelen ser la opción predeterminada.
Los métodos post-hoc se aplican después de entrenar un modelo. Cuando la mayoría de las personas se refieren a la XAI, esto es lo que quieren decir. Las herramientas como SHAP, LIME y los contrafácticos entran en esta categoría.
Los métodos post-hoc suelen ser la única opción para los modelos de aprendizaje profundo, los modelos de lenguaje grande (LLM) y otros sistemas complejos donde las matemáticas subyacentes son demasiado complejas para leerse directamente. Sin embargo, la desventaja es que las explicaciones post-hoc son aproximaciones, no cálculos internos exactos.
Esta categoría se refiere a los métodos que generan un resultado visual que muestra qué parte de la entrada impulsó la decisión del modelo. Los ejemplos incluyen mapas de prominencia (saliency maps) y Grad-CAM, que destacan qué píxeles de una imagen fueron los más importantes. Las visualizaciones de atención destacan en qué palabras de una oración se centró el modelo. Para los modelos de imagen y texto, un mapa de calor o un resaltado suele ser más intuitivo que una lista de números, lo que hace que estos métodos sean especialmente útiles al comunicar los resultados a partes interesadas no técnicas. Al igual que los métodos post-hoc, los resultados de la visualización deben tratarse como señales informativas, no como pruebas definitivas.
La siguiente tabla resume los métodos de XAI más utilizados, seguidos de descripciones más detalladas de las cinco técnicas que los profesionales emplean con mayor frecuencia.
| Método | Alcance | ¿Independiente del modelo? | Resultado | Ideal para |
|---|---|---|---|---|
| SHAP | Local + global | Sí | Contribución numérica de cada característica a una predicción | Modelos tabulares, modelos basados en árboles, uso general |
| LIME | Local | Sí | Un modelo sustituto (surrogate) simple que explica una predicción | Explicaciones locales rápidas en diferentes tipos de modelos |
| LRP | Local | No (requiere componentes internos de la red neuronal) | Puntuaciones de relevancia rastreadas a través de las capas de la red | Redes neuronales profundas, modelos de imágenes |
| Gradientes integrados | Local | No (requiere gradientes del modelo) | Atribución a nivel de píxel o token | Redes neuronales, imágenes y texto |
| Mapas de saliencia / Grad-CAM | Local | No | Mapa de calor sobre una imagen que muestra las regiones influyentes | Modelos de visión artificial |
| Explicaciones contrafácticas | Local | Sí | "¿Qué tendría que cambiar para obtener un resultado diferente?" | Decisiones que afectan a personas (préstamos, contratación) |
| Gráficos de dependencia parcial (PDP) | Global | Sí | Gráfico que muestra cómo afecta una característica a las predicciones en promedio | Comprensión del comportamiento general del modelo |
| Importancia de características por permutación | Global | Sí | Clasificación de las características que más importan a nivel general | Depuración de modelos, selección de características |
| Anchors | Local | Sí | Reglas de tipo "si-entonces" (if-then) que fijan una predicción | Explicaciones basadas en reglas para usuarios finales |
| TCAV | Global | No | Cuánto influye un concepto de alto nivel en las predicciones | Modelos de imágenes, auditorías a nivel de concepto |
| Visualización de atención | Local | No (requiere componentes internos del transformer) | Resaltado de los tokens en los que se centró el modelo | LLM, transformers, modelos de NLP |
El método de XAI conocido como SHapley Additive exPlanations (SHAP) asigna a cada característica de entrada una puntuación numérica que muestra cuánto aumentó o disminuyó una predicción en comparación con una línea de base. Si le pregunta a SHAP por qué se denegó un préstamo, podría decirle que la relación deuda-ingresos del solicitante redujo la probabilidad de aprobación en 22 puntos, mientras que su historial de empleo sumó 8. El método se basa en los valores de Shapley de la teoría de juegos cooperativos, una forma fundamentada de distribuir el crédito de manera justa entre los contribuyentes, lo que le da a SHAP una base teórica más sólida que la mayoría de las alternativas.
Las principales ventajas de SHAP son que es agnóstico al modelo y produce explicaciones tanto locales (predicción individual) como globales (modelo general). También es la principal herramienta de explicabilidad compatible con Databricks AutoML y el registro automático (autologging) de MLflow. La desventaja es el costo computacional. SHAP puede ser lento en conjuntos de datos grandes o modelos complejos, por lo que se debe planificar el presupuesto en consecuencia.
El método de XAI llamado Local Interpretable Model-agnostic Explanations (LIME) selecciona una predicción que desee comprender y, a continuación, crea un modelo más pequeño y fácil de interpretar para analizar cómo se genera esa predicción. Para ello, LIME modifica ligeramente la entrada en repetidas ocasiones y observa cómo cambia la salida del modelo. Utiliza esos resultados para ajustar un modelo sustituto (surrogate) simplificado, normalmente un modelo lineal, que se aproxima a la IA que está analizando. El resultado es una lista clasificada de características y su influencia direccional en la predicción.
LIME funciona con cualquier tipo de modelo y genera explicaciones puntuales rápidamente. La desventaja es que las explicaciones pueden ser inestables. Debido a que LIME utiliza perturbaciones aleatorias, ejecutarlo dos veces en la misma predicción puede producir resultados significativamente diferentes, lo que puede ser un problema real en situaciones de alto riesgo o en contextos donde se requiere una auditoría.
Una explicación contrafáctica responde a una pregunta directa: ¿Qué habría tenido que cambiar para que el modelo tomara una decisión diferente? Por ejemplo, la afirmación: "Si sus ingresos anuales fueran $10,000 más altos, esta solicitud habría sido aprobada". Eso es un contrafáctico.
Este tipo de XAI resuena bien con el público no técnico porque es accionable. Los contrafácticos encajan de forma natural con la manera en que las personas ya piensan sobre la causa y el efecto, y les ofrecen una pauta de acción con la información. También funcionan bien dentro de los marcos regulatorios que incluyen el derecho a una explicación, como el Artículo 22 del GDPR. La desventaja suele ser de carácter práctico. Un contrafáctico solo es útil si el cambio sugerido es realista y está bajo el control de la persona. "Si fuera 10 años más joven" no es una explicación accionable.
Los mapas de saliencia y Grad-CAM son técnicas visuales de XAI para modelos basados en imágenes. Producen un mapa de calor superpuesto en la imagen original que muestra en qué píxeles o regiones se centró el modelo al realizar su predicción. En un contexto de imágenes médicas, el resultado de Grad-CAM en una clasificación de radiografías podría mostrar que el modelo se centró en una determinada región del pulmón, que es exactamente lo que un radiólogo necesita ver antes de confiar en el resultado.
Estos métodos se utilizan ampliamente en visión artificial, imágenes médicas, sistemas autónomos y control de calidad industrial. Las investigaciones han demostrado que los mapas de saliencia pueden parecer convincentes sin reflejar con precisión lo que hace el modelo. Considérelos como una señal, no como un resultado definitivo.
Los modelos transformer proporcionan la arquitectura detrás de la mayoría de los LLM modernos y tienen mecanismos de atención integrados que ponderan cuánto contribuye cada token de entrada a cada token de salida. Las visualizaciones de atención convierten esas ponderaciones en un mapa de resaltado sobre el texto, mostrando en qué palabras de entrada se apoyó más el modelo al generar una respuesta específica.
Las visualizaciones se pueden interpretar sin experiencia especializada, lo que las convierte en una de las herramientas de explicabilidad más accesibles para los LLM. No siempre son una explicación fiel del resultado final. Las investigaciones han revelado que las características con ponderaciones de atención altas no siempre reflejan con precisión la decisión real del modelo.
Elegir el método de XAI adecuado depende del modelo, el público y la pregunta que intente responder. El siguiente marco de trabajo puede ayudarle a guiar su decisión:
Los métodos de XAI son potentes, pero no son perfectos. Cualquiera que los implemente en producción debe comprender sus limitaciones.
La mayoría de los métodos post hoc, como SHAP, LIME o los mapas de saliencia, se aproximan a lo que hace el modelo en lugar de revelar el cálculo interno exacto. Dos métodos diferentes aplicados a la misma predicción pueden producir explicaciones distintas. Considere los resultados de XAI como indicios, no como pruebas definitivas.
Como se ha mencionado, los m étodos como SHAP y los gradientes integrados pueden ser lentos en conjuntos de datos grandes o modelos complejos. Es posible que no sea viable ejecutar explicaciones completas para cada predicción en un sistema de producción de gran volumen, y aplicarlas de forma selectiva plantea dudas sobre la representatividad. Tenga en cuenta tanto el costo computacional como los costos de modelado al elegir un método de XAI.
Algunos métodos, especialmente LIME, producen resultados diferentes en ejecuciones repetidas de la misma predicción debido al muestreo aleatorio en el proceso de perturbación. Esta inestabilidad es un problema real para contextos auditables o regulados. Los ataques adversarios también pueden manipular las explicaciones post hoc para ocultar el comportamiento real del modelo. Aunque se sigue investigando en contramedidas, estos ataques son otra razón para no considerar las explicaciones como infalibles.
Los modelos más interpretables suelen ser los menos precisos en problemas complejos, y los modelos más precisos suelen ser los más difíciles de explicar. Este no es un problema de ingeniería con solución, sino una decisión de diseño deliberada. Las organizaciones deben evaluar sus prioridades. ¿Quieren un modelo menos preciso pero totalmente transparente, o un modelo de caja negra más preciso con herramientas de XAI superpuestas? La respuesta debe depender de la importancia de la decisión. Los ámbitos de alto riesgo, como la atención médica, los préstamos o la justicia penal, a menudo justifican priorizar la explicabilidad, incluso a costa de cierta precisión bruta.
Los métodos de XAI ya están en producción en industrias reguladas y de alto riesgo. A continuación, se muestra cómo se suelen utilizar los diferentes métodos en distintos sectores:
MLflow, la plataforma de ciclo de vida de ML de código abierto creada por Databricks, admite el seguimiento, el control de versiones y el registro de artefactos de explicación junto con el propio modelo. Para las variantes de modelos compatibles, el registro automático de MLflow puede capturar valores SHAP y puntuaciones de importancia de las características, lo que mantiene las explicaciones vinculadas a la versión específica del modelo y a la ejecución de entrenamiento que las generó. Databricks AutoML también genera automáticamente gráficos SHAP y notebooks de valores de Shapley para los modelos que produce, lo que ofrece a los equipos un punto de partida para la explicabilidad sin necesidad de una configuración manual.
Unity Catalog proporciona la capa de gobernanza que hace que las explicaciones sean auditables a lo largo del tiempo. Esta capa incluye el linaje de modelos, el control de versiones, el control de acceso centralizado y los registros de auditoría que permiten a los equipos rastrear qué datos entrenaron a qué modelo y quién accedió a ellos. Juntos, MLflow y Unity Catalog ofrecen a los equipos de datos y AI la infraestructura para integrar la explicabilidad en el ciclo de vida del modelo en lugar de añadirla al final.
¿Son siempre precisas las explicaciones de XAI?
No. La mayoría de los métodos de XAI, especialmente las técnicas post hoc como SHAP y LIME, producen aproximaciones del comportamiento del modelo, no reconstrucciones exactas del cálculo interno. Dos métodos aplicados a la misma predicción pueden dar lugar a explicaciones diferentes. Considere los resultados de XAI como evidencia, no como una prueba concluyente. Validar las explicaciones con la experiencia en el dominio y combinar varios métodos ofrece una imagen más fiable.
¿Cuál es la diferencia entre XAI y AI interpretable?
La AI interpretable se refiere a modelos que son transparentes por diseño y cuya estructura es lo suficientemente sencilla como para seguirla directamente. La AI explicable es más amplia e incluye modelos interpretables, así como modelos complejos de caja negra combinados con técnicas independientes que explican su comportamiento a posteriori. Un modelo interpretable no necesita herramientas de XAI, pero un modelo explicable sí.
¿Cuál es la diferencia entre las explicaciones globales y locales?
Una explicación global describe cómo se comporta el modelo en todas las entradas, por ejemplo, qué características son más importantes en general o qué patrones impulsan las predicciones a nivel global. Una explicación local describe por qué el modelo realizó una predicción específica para una entrada concreta. Ambos tipos son útiles, y la mejor práctica de XAI consiste en utilizar métodos globales para comprender el modelo y métodos locales para explicar las decisiones individuales.
¿Cuál es la diferencia entre XAI y AI responsable?
La AI responsable es una disciplina más amplia, que abarca la equidad, la seguridad, la privacidad, la transparencia y la responsabilidad a lo largo de todo el ciclo de vida de la AI. La AI explicable es el conjunto de métodos que hacen que el comportamiento del modelo sea transparente y auditable. Por lo tanto, la explicabilidad es necesaria para la AI responsable, pero no suficiente por sí sola. Un modelo puede ser explicable y, aun así, ser sesgado, inseguro o utilizarse de forma incorrecta.
¿Se pueden utilizar los métodos de XAI en la AI generativa?
Sí, aunque las técnicas difieren de las utilizadas en los modelos de ML tradicionales. Para los LLM y otros sistemas basados en transformadores, la visualización de la atención es el enfoque más utilizado. LIME también se puede aplicar a entradas de texto. Dicho esto, la AI generativa presenta desafíos de explicabilidad más difíciles que los modelos tabulares o de imágenes porque los resultados son más variados, las ventanas de contexto son más largas y la relación entre los tokens de entrada y el texto generado es más compleja. La explicabilidad para la AI generativa es un área de investigación activa, y los métodos actuales deben tratarse como señales parciales en lugar de explicaciones completas.
Los métodos de XAI ofrecen a los equipos de datos y AI las herramientas para crear sistemas que las personas puedan entender, auditar y en los que puedan confiar. La elección del método adecuado depende del modelo, la audiencia y la importancia de la decisión de salida, pero el objetivo subyacente es el mismo: hacer que el comportamiento de la AI sea lo suficientemente visible como para actuar con confianza.
Obtenga más información sobre cómo Databricks admite una AI responsable y gobernada en nuestro marco de gobernanza de datos empresariales o en el marco de gobernanza de AI de Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.