Autonome Softwaresysteme auf Basis von LLMs, die Umgebungen wahrnehmen, Entscheidungen treffen und durch logisches Denken, Planung und den Einsatz von Tools handeln
Explainable AI, oder XAI, bezieht sich auf Techniken, die Menschen helfen zu verstehen, wie ein AI-System zu einem bestimmten Ergebnis gelangt ist. Dies ist besonders relevant für Machine Learning und Deep Learning, wo Modelle Muster aus Daten lernen, anstatt von Menschen geschriebenen Regeln zu folgen.
Je leistungsfähiger Modelle werden, desto schwerer sind ihre Entscheidungen nachzuvollziehen. Deep-Learning-Modelle können Milliarden von Parametern enthalten. Dadurch ist es schwer zu verstehen, warum sie eine Transaktion genehmigt, Betrug gemeldet, einen Kredit abgelehnt oder eine Anomalie in einem MRI erkannt haben. Dies wird oft als „Black-Box“-Problem bezeichnet.
XAI hilft dabei, diese Black Box zu öffnen, indem es Teams Möglichkeiten bietet, zu bewerten, ob ein Modell folgende Kriterien erfüllt:
Da AI immer weitreichendere Entscheidungen übernimmt, ist es ebenso wichtig zu verstehen, warum ein Modell zu einer Antwort gelangt ist, wie die Antwort selbst. Dieser Artikel behandelt die wichtigsten XAI-Methoden, die Techniken, auf die sich Daten- und AI-Teams verlassen, und wie man zwischen ihnen wählt.
Entscheidungen in Bereichen wie Kreditvergabe, Personalbeschaffung, Gesundheitswesen, Betrugserkennung oder Versicherungen können erhebliche Folgen für Einzelpersonen haben. Menschen haben ein Recht darauf zu erfahren, warum ihre Bewerbung abgelehnt, eine Transaktion markiert oder eine bestimmte Behandlung empfohlen wurde – insbesondere, wenn AI im Spiel war. Ein Mangel an Transparenz ist nicht nur unangenehm. In vielen Kontexten kann er ein rechtliches Risiko darstellen. Hier sind vier praktische Gründe, warum XAI-Methoden wichtig sind:
Das Modellverhalten kann sich im Laufe der Zeit auch ändern, wenn sich reale Daten verändern. Erklärbarkeit unterstützt die kontinuierliche Überwachung.
XAI-Methoden lassen sich im Allgemeinen in zwei Kategorien einteilen: Modelle, die von Grund auf erklärbar sind, und Methoden, die ein Modell im Nachhinein erklären. In der ersten Kategorie ist die Struktur des Modells einfach genug, um sie direkt zu verstehen. Beispiele hierfür sind Entscheidungsbäume, lineare Regressionen oder regelbasierte Systeme.
In der zweiten Kategorie ist das Modell zu komplex, um es direkt zu verstehen. Daher wird nach dem Training eine separate Technik angewendet, um zu untersuchen, was das Modell tut. Zu den beispielhaften Techniken gehören die Durchführung von Experimenten an einem bereits trainierten Modell, die Annäherung des Modells durch eine einfachere Variante oder die Rückverfolgung, welche Eingaben den größten Einfluss auf ein bestimmtes Ergebnis hatten.
In beiden Fällen ändert die Analyse jedoch nicht das Modell, sondern hinterfragt es.
Der grundlegende Workflow sieht wie folgt aus:
Bevor wir uns mit bestimmten Methoden befassen, gibt es vier Begriffe, die in XAI-Diskussionen häufig vorkommen. Sie zu kennen, hilft, die späteren Erläuterungen besser zu verstehen.
| Begriff | Bedeutung | Beispiel |
|---|---|---|
| Interpretierbares Modell | Ein Modell, das so einfach ist, dass ein Mensch es selbst nachvollziehen kann – ohne zusätzliche Tools. | Ein Entscheidungsbaum oder eine lineare Regression, deren Logik Sie direkt ablesen können. |
| Erklärbares Modell | Ein komplexes Modell in Kombination mit einer separaten Technik, die das Verhalten des Modells nach dem Training erklärt. | Ein tiefes neuronales Netz, das mit SHAP oder LIME analysiert wird. |
| Globale Erklärung | Beschreibt, wie sich ein Modell insgesamt über alle Eingaben hinweg verhält. | „Einkommen und Kredit-Score sind die beiden wichtigsten Faktoren bei allen Kreditentscheidungen.“ |
| Lokale Erklärung | Beschreibt, warum ein Modell eine bestimmte Vorhersage getroffen hat. | „Dieser Antragsteller wurde abgelehnt, weil sein Verhältnis von Schulden zu Einkommen zu hoch war.“ |
XAI-Methoden werden in der Regel danach gruppiert, wie sie Erklärungen generieren. Die folgenden drei Beschreibungen decken die wichtigsten derzeit verwendeten Techniken sowie die Kompromisse ab, die Sie in Bezug auf Transparenz, Genauigkeit und praktische Eignung berücksichtigen müssen.
Intrinsisch interpretierbare Modelle sind von Grund auf transparent. Die Struktur des Modells selbst zeigt, wie es Entscheidungen trifft, sodass kein zusätzliches Tool oder Verfahren erforderlich ist, um die Logik des Modells zu analysieren. Beispiele hierfür sind Entscheidungsbäume, die einem Flussdiagramm aus Ja/Nein-Regeln folgen, die man manuell durchgehen kann, sowie die lineare und logistische Regression, die jeder Eingabe ein numerisches Gewicht zuweist, sodass Sie genau sehen können, wie jedes Feature zum Ergebnis beiträgt. Generalisierte additive Modelle und regelbasierte Systeme funktionieren ähnlich.
Der Kompromiss liegt hier bei der Genauigkeit. Interpretierbare Modelle sind leicht zu erklären, aber bei schwierigen Problemen wie Bilderkennung oder Sprachverstehen oft ungenauer als komplexe Modelle. Für streng regulierte Branchen, in denen jede Entscheidung vertretbar sein muss, sind sie jedoch oft die Standardwahl.
Post-hoc-Methoden werden angewendet, nachdem ein Modell trainiert wurde. Wenn die meisten Menschen von XAI sprechen, meinen sie genau das. Tools wie SHAP, LIME und kontrafaktische Erklärungen (Counterfactuals) gehören alle dazu.
Post-hoc-Methoden sind in der Regel die einzige Option für Deep-Learning-Modelle, Large Language Models (LLMs) und andere komplexe Systeme, bei denen die zugrunde liegende Mathematik zu komplex ist, um sie direkt zu verstehen. Der Kompromiss besteht jedoch darin, dass Post-hoc-Erklärungen Annäherungen und keine exakten internen Berechnungen sind.
Diese Kategorie bezieht sich auf Methoden, die eine visuelle Ausgabe erzeugen, die zeigt, welcher Teil der Eingabe die Entscheidung des Modells beeinflusst hat. Beispiele hierfür sind Saliency Maps und Grad-CAM, die beide hervorheben, welche Pixel in einem Bild am wichtigsten waren. Attention-Visualisierungen zeigen, auf welche Wörter in einem Satz sich das Modell konzentriert hat. Für Bild- und Textmodelle ist eine Heatmap oder eine Hervorhebung oft intuitiver als eine Liste von Zahlen, was diese Methoden besonders nützlich macht, wenn Ergebnisse an nicht-technische Stakeholder kommuniziert werden sollen. Wie Post-hoc-Methoden sollten auch Visualisierungsergebnisse als informative Signale und nicht als endgültiger Beweis betrachtet werden.
Die folgende Tabelle fasst die am häufigsten verwendeten XAI-Methoden zusammen, gefolgt von detaillierteren Beschreibungen der fünf Techniken, die in der Praxis am häufigsten eingesetzt werden.
| Methode | Umfang | Modellagnostisch? | Ausgabe | Bestens geeignet für |
|---|---|---|---|---|
| SHAP | Lokal + global | Ja | Numerischer Beitrag jedes Features zu einer Vorhersage | Tabellarische Modelle, baumbasierte Modelle, breite Anwendung |
| LIME | Lokal | Ja | Ein einfaches Surrogatmodell, das eine Vorhersage erklärt | Schnelle lokale Erklärungen über verschiedene Modelltypen hinweg |
| LRP | Lokal | Nein (erfordert interne neuronale Netzstrukturen) | Relevanzwerte werden durch Netzwerkschichten zurückverfolgt | Tiefe neuronale Netze, Bildmodelle |
| Integrated Gradients | Lokal | Nein (erfordert Modellgradienten) | Attribution auf Pixel- oder Token-Ebene | Neuronale Netze, Bilder und Text |
| Saliency Maps / Grad-CAM | Lokal | Nein | Heatmap über einem Bild, die einflussreiche Regionen zeigt | Computer-Vision-Modelle |
| Kontrafaktische Erklärungen | Lokal | Ja | "Was müsste sich für ein anderes Ergebnis ändern?" | Entscheidungen, die Einzelpersonen betreffen (Kredite, Einstellungen) |
| Partial Dependence Plots (PDP) | Global | Ja | Diagramm, das zeigt, wie sich ein Feature im Durchschnitt auf Vorhersagen auswirkt | Verständnis des gesamten Modellverhaltens |
| Permutation Feature Importance | Global | Ja | Rangliste der Features, die insgesamt am wichtigsten sind | Modell-Debugging, Feature-Auswahl |
| Anchors | Lokal | Ja | "Wenn-dann"-Regeln, die eine Vorhersage festlegen | Regelbasierte Erklärungen für Endnutzer |
| TCAV | Global | Nein | Wie stark ein übergeordnetes Konzept Vorhersagen beeinflusst | Bildmodelle, Audits auf Konzepebene |
| Attention-Visualisierung | Lokal | Nein (erfordert interne Transformer-Strukturen) | Hervorhebung, auf welche Token sich das Modell konzentriert hat | LLMs, Transformer, NLP-Modelle |
Die als SHapley Additive exPlanations (SHAP) bekannte XAI-Methode weist jedem Eingabe-Feature einen numerischen Wert zu, der zeigt, wie stark es eine Vorhersage im Vergleich zu einem Basiswert nach oben oder unten verschoben hat. Wenn Sie SHAP fragen, warum ein Kredit abgelehnt wurde, könnte die Antwort lauten, dass das Verhältnis von Schulden zu Einkommen des Antragstellers die Genehmigungswahrscheinlichkeit um 22 Punkte verringert hat, während die Beschäftigungshistorie 8 Punkte hinzugefügt hat. Die Methode basiert auf Shapley-Werten aus der kooperativen Spieltheorie – einem fundierten Ansatz zur fairen Aufteilung von Beiträgen –, was SHAP ein solideres theoretisches Fundament verleiht als den meisten Alternativen.
Die Hauptstärken von SHAP liegen darin, dass es modellunabhängig (model-agnostic) ist und sowohl lokale (einzelne Vorhersage) als auch globale (Gesamtmodell) Erklärungen liefert. Es ist zudem das primäre Erklärbarkeitstool, das von Databricks AutoML und dem automatischen Logging von MLflow unterstützt wird. Der Nachteil sind die Rechenkosten. SHAP kann bei großen Datensätzen oder komplexen Modellen langsam sein und sollte bei der Ressourcenplanung entsprechend berücksichtigt werden.
Die LIME-Methode (Local Interpretable Model-agnostic Explanations) von XAI wählt eine Vorhersage aus, die Sie verstehen möchten, und erstellt dann ein kleineres, leicht verständliches Modell, um zu analysieren, wie diese Vorhersage zustande kommt. Dazu verändert LIME die Eingabe viele Male leicht und beobachtet, wie sich die Ausgabe des Modells verändert. Es nutzt diese Ergebnisse, um ein vereinfachtes Ersatzmodell (Surrogatmodell) – meist ein lineares Modell – anzupassen, das die zu analysierende KI approximiert. Das Ergebnis ist eine Rangliste der Features und ihres jeweiligen Einflusses auf die Vorhersage.
LIME funktioniert mit jedem Modelltyp und liefert schnell punktuelle Erklärungen. Der Nachteil ist, dass die Erklärungen instabil sein können. Da LIME mit zufälligen Störungen (Perturbationen) arbeitet, kann die zweimalige Ausführung für dieselbe Vorhersage zu deutlich unterschiedlichen Ergebnissen führen. In kritischen Bereichen oder Kontexten, in denen Audits erforderlich sind, kann dies ein echtes Problem darstellen.
Eine kontrafaktische Erklärung beantwortet eine direkte Frage: Was hätte sich ändern müssen, damit das Modell eine andere Entscheidung trifft? Ein Beispiel hierfür ist die Aussage: "Wenn Ihr Jahreseinkommen um 10.000 $ höher gewesen wäre, wäre dieser Antrag genehmigt worden." Das ist ein Kontrafaktum.
Diese Art von XAI spricht auch ein nicht-technisches Publikum an, da sie handlungsorientiert ist. Kontrafaktische Erklärungen passen natürlicherweise dazu, wie Menschen über Ursache und Wirkung nachdenken, und geben ihnen konkrete Anhaltspunkte an die Hand. Sie eignen sich auch gut für regulatorische Rahmenbedingungen, die ein Recht auf Erklärung vorsehen, wie etwa Artikel 22 der GDPR. Der Nachteil ist meist praktischer Natur: Eine kontrafaktische Erklärung ist nur dann nützlich, wenn die vorgeschlagene Änderung realistisch ist und im Einflussbereich der Person liegt. "Wenn Sie 10 Jahre jünger wären" ist keine umsetzbare Erklärung.
Saliency Maps und Grad-CAM sind visuelle XAI-Techniken für bildbasierte Modelle. Sie erzeugen eine Heatmap, die über das Originalbild gelegt wird und zeigt, auf welche Pixel oder Regionen sich das Modell bei seiner Vorhersage konzentriert hat. Im Kontext der medizinischen Bildgebung könnte eine Grad-CAM-Ausgabe bei einer Röntgenklassifizierung zeigen, dass sich das Modell auf einen bestimmten Bereich der Lunge konzentriert hat – genau das, was ein Radiologe sehen muss, bevor er dem Ergebnis vertraut.
Diese Methoden sind in der Computer-Vision, der medizinischen Bildgebung, autonomen Systemen und der industriellen Qualitätskontrolle weit verbreitet. Untersuchungen haben jedoch gezeigt, dass Saliency Maps überzeugend wirken können, ohne das tatsächliche Verhalten des Modells präzise widerzuspiegeln. Betrachten Sie sie als ein Signal von vielen, nicht als endgültiges Ergebnis.
Transformer-Modelle bilden die Architektur hinter den meisten modernen LLMs und verfügen über integrierte Attention-Mechanismen, die gewichten, wie stark jedes Eingabe-Token zu jedem Ausgabe-Token beiträgt. Attention-Visualisierungen wandeln diese Gewichtungen in eine Hervorhebungskarte über dem Text um und zeigen, auf welche Eingabewörter sich das Modell bei der Generierung einer bestimmten Antwort am meisten gestützt hat.
Die Visualisierungen sind ohne Fachwissen verständlich, was sie zu einem der zugänglicheren Erklärbarkeitstools für LLMs macht. Sie sind jedoch nicht immer eine originalgetreue Erklärung der endgültigen Ausgabe. Untersuchungen haben gezeigt, dass Features mit hohen Attention-Gewichten nicht immer die tatsächliche Entscheidung des Modells korrekt widerspiegeln.
Die Wahl der richtigen XAI-Methode hängt vom Modell, der Zielgruppe und der Frage ab, die Sie beantworten möchten. Der folgende Leitfaden kann Ihnen bei der Entscheidung helfen:
XAI-Methoden sind leistungsstark, aber nicht perfekt. Jeder, der sie im Produktivbetrieb einsetzt, sollte ihre Grenzen kennen.
Die meisten Post-hoc-Methoden wie SHAP, LIME oder Saliency Maps nähern das Verhalten des Modells lediglich an, anstatt die exakte interne Berechnung offenzulegen. Zwei verschiedene Methoden, die auf dieselbe Vorhersage angewendet werden, können unterschiedliche Erklärungen liefern. Betrachten Sie XAI-Ergebnisse als Anhaltspunkte, nicht als Beweise.
Wie bereits erwähnt, können Methoden wie SHAP und Integrated Gradients bei großen Datensätzen oder komplexen Modellen langsam sein. Die Ausführung vollständiger Erklärungen für jede einzelne Vorhersage in einem hochvolumigen Produktivsystem ist oft nicht machbar, und eine selektive Anwendung wirft Fragen hinsichtlich der Repräsentativität auf. Planen Sie bei der Auswahl einer XAI-Methode sowohl die Rechenkosten als auch die Modellierungskosten ein.
Einige Methoden, insbesondere LIME, liefern bei wiederholten Durchläufen für dieselbe Vorhersage unterschiedliche Ergebnisse, was auf die Zufallsstichproben im Perturbationsprozess zurückzuführen ist. Diese Instabilität ist in prüfungsrelevanten oder regulierten Kontexten ein echtes Problem. Adversarial Attacks (gegnerische Angriffe) können zudem Post-hoc-Erklärungen manipulieren, um das tatsächliche Modellverhalten zu verschleiern. Obwohl an Gegenmaßnahmen geforscht wird, sind solche Angriffe ein weiterer Grund, Erklärungen nicht als manipulationssicher zu betrachten.
Die am besten interpretierbaren Modelle sind bei komplexen Problemen oft am ungenauesten, und die genauesten Modelle sind oft am schwersten zu erklären. Dies ist kein lösbares technisches Problem, sondern eine bewusste Designentscheidung. Unternehmen müssen ihre Prioritäten abwägen: Möchten sie ein weniger genaues, aber völlig transparentes Modell oder ein genaueres Black-Box-Modell mit einer darüber gelagerten XAI-Tool-Schicht? Die Antwort sollte sich nach der Tragweite der Entscheidung richten. In kritischen Bereichen wie dem Gesundheitswesen, der Kreditvergabe oder der Strafjustiz ist es oft gerechtfertigt, der Erklärbarkeit Vorrang einzuräumen, selbst wenn dies zu Lasten der reinen Genauigkeit geht.
XAI-Methoden sind in regulierten Branchen und Bereichen mit hohem Risiko bereits im produktiven Einsatz. So werden die verschiedenen Methoden typischerweise in den einzelnen Branchen eingesetzt:
MLflow, die von Databricks entwickelte Open-Source-Plattform für den ML-Lebenszyklus, unterstützt das Modell-Tracking, die Versionierung und das Protokollieren von Erklärungsartefakten direkt zusammen mit dem Modell selbst. Für unterstützte Modell-Flavors kann das Autologging von MLflow SHAP-Werte und Feature-Importance-Scores erfassen. Dadurch bleiben die Erklärungen direkt mit der spezifischen Modellversion und dem Trainingslauf verknüpft, durch die sie generiert wurden.
Databricks AutoML generiert zudem automatisch SHAP-Diagramme und Shapley-Value-Notebooks für die erstellten Modelle. Dies bietet Teams einen direkten Einstiegspunkt für die Erklärbarkeit ohne manuellen Einrichtungsaufwand.
Unity Catalog bietet die Governance-Ebene, die Erklärungen langfristig auditierbar macht. Diese Ebene umfasst Modell-Lineage, Versionierung, zentralisierte Zugriffskontrolle und Audit-Logs, mit denen Teams nachverfolgen können, welche Daten für das Training welches Modells verwendet wurden und wer darauf zugegriffen hat. Zusammen, MLflow und Unity Catalog bieten Daten- und KI-Teams die Infrastruktur, um Erklärbarkeit direkt in den Modell-Lebenszyklus zu integrieren, anstatt sie erst nachträglich hinzuzufügen.
Sind XAI-Erklärungen immer korrekt?
Nein. Die meisten XAI-Methoden, insbesondere Post-hoc-Techniken wie SHAP und LIME, liefern Annäherungen an das Modellverhalten und keine exakten Rekonstruktionen der internen Berechnungen. Zwei auf dieselbe Vorhersage angewandte Methoden können unterschiedliche Erklärungen liefern. Betrachten Sie XAI-Ergebnisse daher als Anhaltspunkte, nicht als endgültigen Beweis. Die Validierung von Erklärungen anhand von Fachwissen und die Kombination mehrerer Methoden liefern ein zuverlässigeres Bild.
Was ist der Unterschied zwischen XAI und interpretierbarer KI?
Interpretierbare KI bezieht sich auf Modelle, die von Grund auf transparent gestaltet sind und deren Struktur so einfach ist, dass man sie direkt nachvollziehen kann. Erklärbare KI (XAI) ist weiter gefasst und umfasst sowohl interpretierbare Modelle als auch komplexe Black-Box-Modelle, die mit separaten Techniken kombiniert werden, um ihr Verhalten nachträglich zu erklären. Ein interpretierbares Modell benötigt keine XAI-Tools, ein erklärbares Modell hingegen schon.
Was ist der Unterschied zwischen globalen und lokalen Erklärungen?
Eine globale Erklärung beschreibt, wie sich das Modell über alle Eingaben hinweg verhält – also beispielsweise, welche Features insgesamt am wichtigsten sind oder welche Muster die Vorhersagen im Allgemeinen bestimmen. Eine lokale Erklärung beschreibt, warum das Modell eine bestimmte Vorhersage für eine bestimmte Eingabe getroffen hat. Beide Arten sind nützlich. Best Practices für XAI sehen vor, globale Methoden zum Verständnis des Modells und lokale Methoden zur Erklärung einzelner Entscheidungen zu nutzen.
Was ist der Unterschied zwischen XAI und verantwortungsvoller KI?
Verantwortungsvolle KI ist die übergeordnete Disziplin, die Fairness, Sicherheit, Datenschutz, Transparenz und Rechenschaftspflicht über den gesamten KI-Lebenszyklus hinweg abdeckt. Erklärbare KI ist die Gesamtheit der Methoden, die das Modellverhalten transparent und auditierbar machen. Erklärbarkeit ist also eine notwendige, aber allein nicht ausreichende Voraussetzung für verantwortungsvolle KI. Ein Modell kann erklärbar sein und dennoch verzerrt, unsicher oder missbräuchlich verwendet werden.
Können XAI-Methoden auch für generative KI verwendet werden?
Ja, obwohl sich die Techniken von denen für traditionelle ML-Modelle unterscheiden. Für LLMs und andere Transformer-basierte Systeme ist die Visualisierung von Attention (Attention Visualization) der am weitesten verbreitete Ansatz. LIME kann auch auf Texteingaben angewendet werden. Dennoch stellt generative KI größere Herausforderungen an die Erklärbarkeit als tabellarische oder Bildmodelle, da die Ausgaben vielfältiger sind, die Kontextfenster länger sind und die Beziehung zwischen Eingabe-Tokens und generiertem Text komplexer ist. Die Erklärbarkeit für generative KI ist ein aktives Forschungsfeld, und aktuelle Methoden sollten eher als Teilhinweise denn als vollständige Erklärungen betrachtet werden.
XAI-Methoden geben Daten- und KI-Teams die Werkzeuge an die Hand, um Systeme zu entwickeln, die verständlich, vertrauenswürdig und auditierbar sind. Die Wahl der richtigen Methode hängt vom Modell, der Zielgruppe und der Tragweite der getroffenen Entscheidung ab. Das zugrunde liegende Ziel ist jedoch dasselbe: das KI-Verhalten so transparent zu machen, dass man darauf basierend vertrauensvoll handeln kann.
Erfahren Sie mehr darüber, wie Databricks verantwortungsvolle, kontrollierte KI unterstützt – in unserem Enterprise Data Governance Framework oder dem Databricks AI Governance Framework.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.