Systèmes logiciels autonomes alimentés par des LLM qui perçoivent leur environnement, prennent des décisions et agissent grâce au raisonnement, à la planification et à l'utilisation d'outils
L'AI explicable, ou XAI, fait référence aux techniques qui aident à comprendre comment un système d'AI est parvenu à un résultat spécifique. Elle est particulièrement pertinente pour le machine learning et le deep learning, où les modèles apprennent des motifs à partir des données au lieu de suivre des règles écrites par des humains.
À mesure que les modèles gagnent en puissance, leurs décisions peuvent devenir plus difficiles à retracer. Les modèles de deep learning peuvent contenir des milliards de paramètres, ce qui rend difficile de comprendre pourquoi ils ont approuvé une transaction, signalé une fraude, refusé un prêt ou détecté une anomalie dans un MRI. C'est ce qu'on appelle souvent le problème de la « boîte noire ».
L'XAI aide à ouvrir cette boîte en donnant aux équipes des moyens d'évaluer si un modèle est :
Alors que l'AI prend des décisions de plus en plus importantes, comprendre pourquoi un modèle est parvenu à une réponse importe tout autant que la réponse elle-même. Cet article présente les principales méthodes d'XAI, les techniques sur lesquelles s'appuient les équipes data et AI, et comment choisir entre elles.
Les décisions dans des domaines tels que le crédit, le recrutement, la santé, la détection des fraudes ou l'assurance peuvent avoir des conséquences majeures pour les individus. Les gens ont le droit de savoir pourquoi leur demande a été rejetée, une transaction signalée ou un traitement particulier recommandé, surtout si l'AI était impliquée. Le manque de transparence n'est pas seulement un inconvénient. Dans de nombreux contextes, cela peut représenter un risque. Voici quatre raisons pratiques pour lesquelles les méthodes d'XAI sont importantes :
Le comportement du modèle peut également évoluer au fil du temps à mesure que les données du monde réel changent. L'explicabilité facilite la surveillance continue.
Les méthodes d'XAI se divisent généralement en deux catégories : les modèles explicables par conception, et les méthodes qui expliquent un modèle après coup. Dans la première catégorie, la structure du modèle est suffisamment simple pour être lue directement. Les exemples incluent les arbres de décision, les régressions linéaires ou les systèmes basés sur des règles.
Dans la seconde, le modèle est trop complexe pour être lu directement, de sorte qu'une technique distincte est appliquée après l'entraînement pour sonder ce que fait le modèle. Les exemples de techniques peuvent inclure la réalisation d'expériences sur un modèle déjà entraîné, l'approximation du modèle par quelque chose de plus simple ou le suivi des entrées qui ont eu le plus d'influence sur un résultat spécifique.
Dans tous les cas, cependant, l'analyse ne modifie pas le modèle, elle l'interroge.
Le flux de travail de base ressemble à ceci :
Avant de plonger dans des méthodes spécifiques, voici quatre termes qui reviennent fréquemment dans les discussions sur l'XAI. Les connaître permettra de clarifier la suite.
| Terme | Signification | Exemple |
|---|---|---|
| Modèle interprétable | Un modèle suffisamment simple pour qu'un humain puisse le suivre de lui-même, sans outil supplémentaire. | Un arbre de décision ou une régression linéaire dont vous pouvez lire directement la logique. |
| Modèle explicable | Un modèle complexe associé à une technique distincte qui explique le comportement du modèle une fois qu'il a été entraîné. | Un réseau de neurones profonds analysé avec SHAP ou LIME. |
| Explication globale | Décrit le comportement général d'un modèle, pour l'ensemble des entrées. | « Le revenu et la cote de crédit sont les deux principaux facteurs pour toutes les décisions de prêt. » |
| Explication locale | Décrit pourquoi un modèle a fait une prédiction spécifique. | « Ce candidat a été refusé parce que son ratio d'endettement était trop élevé. » |
Les méthodes d'XAI sont généralement regroupées selon la manière dont elles génèrent des explications. Les trois descriptions qui suivent couvrent les principales techniques actuellement utilisées, ainsi que les compromis à prendre en compte en matière de transparence, de précision et d'adéquation pratique.
Les modèles intrinsèquement interprétables sont transparents par conception. La structure même du modèle révèle comment il prend des décisions, de sorte qu'aucun outil ou technique supplémentaire n'est requis pour analyser sa logique. Les exemples incluent les arbres de décision, qui suivent un organigramme de règles oui/non que l'on peut parcourir manuellement, ainsi que la régression linéaire et logistique, qui attribue un poids numérique à chaque entrée afin que vous puissiez voir exactement comment chaque caractéristique contribue au résultat. Les modèles additifs généralisés et les systèmes basés sur des règles fonctionnent de manière similaire.
Le compromis ici concerne la précision. Les modèles interprétables sont faciles à expliquer, mais souvent moins précis que les modèles complexes pour des problèmes difficiles comme la reconnaissance d'images ou la compréhension du langage. Cependant, pour les secteurs hautement réglementés où chaque décision doit pouvoir être défendue, ils constituent souvent le choix par défaut.
Les méthodes post-hoc sont appliquées après l'entraînement d'un modèle. Lorsque la plupart des gens parlent d'XAI, c'est à cela qu'ils font référence. Les outils comme SHAP, LIME et les contre-factuels en font tous partie.
Les méthodes post-hoc sont généralement la seule option pour les modèles de deep learning, les grands modèles de langage (LLM) et d'autres systèmes complexes dont les mathématiques sous-jacentes sont trop complexes pour être lues directement. Le compromis, cependant, est que les explications post-hoc sont des approximations, et non des calculs internes exacts.
Cette catégorie fait référence aux méthodes qui produisent un résultat visuel montrant quelle partie de l'entrée a motivé la décision du modèle. Les exemples incluent les cartes de saillance (saliency maps) et Grad-CAM, qui mettent toutes deux en évidence les pixels d'une image qui ont le plus compté. Les visualisations d'attention mettent en évidence les mots d'une phrase sur lesquels le modèle s'est concentré. Pour les modèles d'images et de texte, une carte thermique (heatmap) ou une mise en surbrillance est souvent plus intuitive qu'une liste de chiffres, ce qui rend ces méthodes particulièrement utiles pour communiquer les résultats à des parties prenantes non techniques. Comme pour les méthodes post-hoc, les résultats de visualisation doivent être traités comme des signaux informatifs, et non comme des preuves définitives.
Le tableau ci-dessous résume les méthodes d'XAI les plus largement utilisées, suivies de descriptions plus détaillées des cinq techniques que les praticiens utilisent le plus fréquemment.
| Méthode | Portée | Agnostique du modèle ? | Résultat | Idéal pour |
|---|---|---|---|---|
| SHAP | Local + global | Oui | Contribution numérique de chaque caractéristique à une prédiction | Modèles tabulaires, modèles basés sur des arbres, utilisation générale |
| LIME | Local | Oui | Un modèle de substitution (surrogate) simple expliquant une prédiction | Explications locales rapides pour différents types de modèles |
| LRP | Local | Non (nécessite les composants internes du réseau de neurones) | Scores de pertinence retracés à travers les couches du réseau | Réseaux de neurones profonds, modèles d'images |
| Integrated gradients | Local | Non (nécessite les gradients du modèle) | Attribution au niveau des pixels ou des jetons | Réseaux de neurones, images et texte |
| Saliency maps / Grad-CAM | Local | Non | Carte de chaleur sur une image montrant les régions influentes | Modèles de vision par ordinateur |
| Counterfactual explanations | Local | Oui | "Qu'est-ce qui devrait changer pour obtenir un résultat différent ?" | Décisions affectant des individus (prêts, recrutement) |
| Partial dependence plots (PDP) | Global | Oui | Graphique montrant comment une caractéristique influence les prédictions en moyenne | Compréhension du comportement global du modèle |
| Permutation feature importance | Global | Oui | Classement des caractéristiques les plus importantes globalement | Débogage de modèles, sélection de caractéristiques |
| Anchors | Local | Oui | Règles de type "si-alors" qui verrouillent une prédiction | Explications sous forme de règles pour les utilisateurs finaux |
| TCAV | Global | Non | Mesure dans laquelle un concept de haut niveau influence les prédictions | Modèles d'images, audits au niveau des concepts |
| Attention visualization | Local | Non (nécessite les composants internes du transformer) | Mise en évidence des jetons sur lesquels le modèle s'est concentré | LLM, transformers, modèles NLP |
La méthode XAI connue sous le nom de SHapley Additive exPlanations (SHAP) attribue à chaque caractéristique d'entrée un score numérique indiquant dans quelle mesure elle a influencé une prédiction à la hausse ou à la baisse par rapport à une référence. Demandez à SHAP pourquoi un prêt a été refusé, et il pourrait vous indiquer que le ratio d'endettement du demandeur a réduit la probabilité d'approbation de 22 points, tandis que son historique d'emploi y a ajouté 8 points. Cette méthode est ancrée dans les valeurs de Shapley issues de la théorie des jeux coopératifs, une approche méthodique pour répartir équitablement le crédit entre les contributeurs, ce qui donne à SHAP un fondement théorique plus solide que la plupart des autres solutions.
Les principaux atouts de SHAP sont qu'il est indépendant du modèle (modèle-agnostique) et qu'il produit des explications à la fois locales (prédiction unique) et globales (modèle dans son ensemble). C'est également le principal outil d'explicabilité pris en charge par Databricks AutoML et l'enregistrement automatique (autologging) de MLflow. Le compromis réside dans le coût de calcul. SHAP peut être lent sur de grands ensembles de données ou des modèles complexes, et son utilisation doit être planifiée en conséquence.
La méthode XAI LIME (Local Interpretable Model-agnostic Explanations) sélectionne une prédiction que vous souhaitez comprendre, puis construit un modèle plus petit et facile à lire pour analyser la manière dont cette prédiction est générée. Pour ce faire, LIME modifie légèrement l'entrée à plusieurs reprises et observe l'évolution des résultats du modèle. Elle utilise ces résultats pour ajuster un modèle de substitution simplifié, généralement un modèle linéaire, qui s'approche de l'IA analysée. Le résultat est une liste classée de caractéristiques et de leur influence directionnelle sur la prédiction.
LIME fonctionne sur n'importe quel type de modèle et produit rapidement des explications ponctuelles. Le compromis est que ces explications peuvent être instables. Comme LIME utilise des perturbations aléatoires, l'exécuter deux fois sur la même prédiction peut produire des résultats sensiblement différents, ce qui peut poser un réel problème dans des situations à enjeux élevés ou des contextes nécessitant un audit.
Une explication contrefactuelle répond à une question directe : qu'aurait-il fallu changer pour que le modèle prenne une décision différente ? Par exemple, l'affirmation : "Si votre revenu annuel était supérieur de 10 000 $, cette demande aurait été approuvée." C'est un exemple de contre-factuel.
Ce type de XAI résonne auprès d'un public non technique car il est exploitable. Les explications contrefactuelles s'intègrent naturellement dans la façon dont les gens conçoivent la cause et l'effet, et leur donnent un moyen d'agir à partir de ces informations. Elles s'intègrent également bien dans les cadres réglementaires qui prévoient un droit à l'explication, comme l'article 22 du GDPR. Le compromis est généralement d'ordre pratique. Une explication contrefactuelle n'est utile que si le changement suggéré est réaliste et dépend de la volonté de la personne. "Si vous aviez 10 ans de moins" n'est pas une explication exploitable.
Les cartes de saillance et Grad-CAM sont des techniques de XAI visuelles pour les modèles basés sur des images. Elles produisent une carte de chaleur superposée à l'image d'origine, montrant sur quels pixels ou régions le modèle s'est concentré pour établir sa prédiction. Dans le contexte de l'imagerie médicale, un résultat Grad-CAM sur une classification de radiographie pourrait montrer que le modèle s'est concentré sur une région spécifique du poumon, ce qui est exactement ce qu'un radiologue doit voir avant de faire confiance au résultat.
Ces méthodes sont largement utilisées en vision par ordinateur, en imagerie médicale, dans les systèmes autonomes et pour le contrôle qualité industriel. Des recherches ont montré que les cartes de saillance peuvent sembler convaincantes sans pour autant refléter fidèlement ce que fait le modèle. Considérez-les comme un signal parmi d'autres, et non comme un résultat définitif.
Les modèles transformers constituent l'architecture de la plupart des LLM modernes et intègrent des mécanismes d'attention qui pondèrent la contribution de chaque jeton d'entrée à chaque jeton de sortie. Les visualisations de l'attention transforment ces poids en une carte de surbrillance sur le texte, montrant sur quels mots d'entrée le modèle s'est le plus appuyé pour générer une réponse spécifique.
Ces visualisations sont lisibles sans expertise spécialisée, ce qui en fait l'un des outils d'explicabilité les plus accessibles pour les LLM. Elles ne constituent pas toujours une explication fidèle du résultat final. Des recherches ont montré que les caractéristiques ayant des poids d'attention élevés ne reflètent pas toujours avec précision la décision réelle du modèle.
Le choix de la bonne méthode de XAI dépend du modèle, du public cible et de la question à laquelle vous tentez de répondre. Le cadre suivant peut vous guider dans votre décision :
Les méthodes de XAI sont puissantes, mais elles ne sont pas parfaites. Quiconque les déploie en production doit en comprendre les limites.
La plupart des méthodes post-hoc telles que SHAP, LIME ou les cartes de saillance fournissent une approximation de ce que fait le modèle plutôt que de révéler le calcul interne exact. Deux méthodes différentes appliquées à la même prédiction peuvent produire des explications différentes. Considérez les résultats de la XAI comme des indices, et non comme des preuves absolues.
Comme mentionné, les méthodes telles que SHAP et les gradients intégrés peuvent être lentes sur de grands ensembles de données ou des modèles complexes. Générer des explications complètes pour chaque prédiction dans un système de production à volume élevé peut s'avérer irréalisable, et les appliquer de manière sélective soulève des questions de représentativité. Prévoyez le coût de calcul ainsi que les coûts de modélisation lors du choix de votre méthode de XAI.
Certaines méthodes, en particulier LIME, produisent des résultats différents lors d'exécutions répétées sur la même prédiction en raison de l'échantillonnage aléatoire dans le processus de perturbation. Cette instabilité est un réel problème pour les contextes soumis à audit ou réglementés. Les attaques contradictoires peuvent également manipuler les explications post-hoc pour masquer le comportement réel du modèle. Bien que les recherches sur les contre-mesures se poursuivent, ces attaques constituent une raison supplémentaire de ne pas considérer les explications comme infalsifiables.
Les modèles les plus interprétables sont souvent les moins précis sur des problèmes complexes, et les modèles les plus précis sont souvent les plus difficiles à expliquer. Il ne s'agit pas d'un problème d'ingénierie soluble, mais d'un choix de conception délibéré. Les organisations doivent évaluer leurs priorités. Souhaitent-elles un modèle moins précis mais totalement transparent, ou un modèle boîte noire plus précis associé à des outils de XAI ? La réponse doit être dictée par l'importance de la décision. Les domaines à enjeux élevés tels que la santé, le crédit ou la justice pénale justifient souvent de donner la priorité à l'explicabilité, même au détriment d'une certaine précision brute.
Les méthodes d'XAI sont déjà en production dans des secteurs réglementés et à enjeux élevés. Voici comment différentes méthodes ont tendance à être utilisées selon les secteurs :
MLflow, la plateforme open source de gestion du cycle de vie du ML créée par Databricks, prend en charge le suivi, le versionnage des modèles et l'enregistrement des artefacts d'explication aux côtés du modèle lui-même. Pour les types de modèles pris en charge, l'enregistrement automatique de MLflow peut capturer les valeurs SHAP et les scores d'importance des variables, ce qui permet de lier les explications à la version spécifique du modèle et à la session d'entraînement qui les a générées. Databricks AutoML génère également automatiquement des graphiques SHAP et des notebooks de valeurs de Shapley pour les modèles qu'il produit, offrant ainsi aux équipes un point de départ pour l'explicabilité sans configuration manuelle.
Unity Catalog fournit la couche de gouvernance qui rend les explications auditables au fil du temps. Cette couche comprend le lignage des modèles, le versionnage, le contrôle d'accès centralisé et les journaux d'audit qui permettent aux équipes de retracer quelles données ont servi à entraîner quel modèle et qui y a accédé. Ensemble, MLflow et Unity Catalog offrent aux équipes Data et IA l'infrastructure nécessaire pour intégrer l'explicabilité au cycle de vie des modèles plutôt que de l'ajouter après coup.
Les explications d'XAI sont-elles toujours précises ?
Non. La plupart des méthodes d'XAI, en particulier les techniques post-hoc comme SHAP et LIME, produisent des approximations du comportement du modèle, et non des reconstructions exactes des calculs internes. Deux méthodes appliquées à la même prédiction peuvent donner des explications différentes. Considérez les résultats d'XAI comme des indices, et non comme des preuves absolues. Valider les explications à l'aide de l'expertise métier et combiner plusieurs méthodes permet d'obtenir une vision plus fiable.
Quelle est la différence entre l'XAI et l'IA interprétable ?
L'IA interprétable fait référence à des modèles transparents dès leur conception et dont la structure est suffisamment simple pour être suivie directement. L'IA explicable est plus large et englobe les modèles interprétables, ainsi que les modèles complexes de type boîte noire associés à des techniques distinctes qui expliquent leur comportement après coup. Un modèle interprétable n'a pas besoin d'outils d'XAI, contrairement à un modèle explicable.
Quelle est la différence entre les explications globales et locales ?
Une explication globale décrit le comportement du modèle pour l'ensemble des entrées, par exemple quelles variables sont les plus importantes globalement ou quels schémas influencent les prédictions en général. Une explication locale décrit pourquoi le modèle a fait une prédiction spécifique pour une entrée spécifique. Les deux types sont utiles, et la meilleure pratique en matière d'XAI consiste à utiliser des méthodes globales pour comprendre le modèle et des méthodes locales pour expliquer les décisions individuelles.
Quelle est la différence entre l'XAI et l'IA responsable ?
L'IA responsable est une discipline mais plus large qui englobe l'équité, la sécurité, la confidentialité, la transparence et la responsabilité tout au long du cycle de vie de l'IA. L'IA explicable est l'ensemble des méthodes qui rendent le comportement du modèle transparent et auditable. Ainsi, l'explicabilité est nécessaire pour une IA responsable, mais elle ne suffit pas à elle seule. Un modèle peut être explicable tout en restant biaisé, dangereux ou mal utilisé.
Les méthodes d'XAI peuvent-elles être utilisées sur l'IA générative ?
Oui, bien que les techniques diffèrent de celles utilisées sur les modèles de ML traditionnels. Pour les LLM et autres systèmes basés sur les transformers, la visualisation de l'attention est l'approche la plus largement utilisée. LIME peut également être appliqué aux entrées textuelles. Cela dit, l'IA générative présente des défis d'explicabilité plus complexes que les modèles tabulaires ou d'images, car les résultats sont plus variés, les fenêtres de contexte sont plus longues et la relation entre les jetons d'entrée (tokens) et le texte généré est plus complexe. L'explicabilité pour l'IA générative est un domaine de recherche actif, et les méthodes actuelles doivent être considérées comme des signaux partiels plutôt que comme des explications complètes.
Les méthodes d'XAI offrent aux équipes Data et IA les outils nécessaires pour concevoir des systèmes que les utilisateurs peuvent comprendre, auditer et auxquels ils peuvent faire confiance. Le choix de la bonne méthode dépend du modèle, du public cible et de l'importance de la décision finale, mais l'objectif sous-jacent reste le même : rendre le comportement de l'IA suffisamment visible pour agir en toute confiance.
Découvrez-en plus sur la façon dont Databricks prend en charge une IA responsable et gouvernée dans notre cadre de gouvernance des données d'entreprise ou dans le cadre de gouvernance de l'IA de Databricks.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.