Sistemas de software autônomos alimentados por LLMs que percebem ambientes, tomam decisões e realizam ações por meio de raciocínio, planejamento e uso de ferramentas
A AI explicável, ou XAI, refere-se a técnicas que ajudam as pessoas a entender como um sistema de AI chegou a um resultado específico. É especialmente relevante para o machine learning e o deep learning, onde os modelos aprendem padrões a partir de dados em vez de seguir regras escritas por humanos.
À medida que os modelos se tornam mais poderosos, suas decisões podem se tornar mais difíceis de rastrear. Modelos de deep learning podem conter bilhões de parâmetros, tornando difícil entender por que aprovaram uma transação, sinalizaram uma fraude, negaram um empréstimo ou detectaram uma anormalidade em uma MRI. Isso é frequentemente chamado de problema da “caixa preta”.
O XAI ajuda a abrir essa caixa, oferecendo às equipes maneiras de avaliar se um modelo é:
À medida que a AI assume decisões mais importantes, entender por que um modelo chegou a uma resposta importa tanto quanto a própria resposta. Este artigo aborda os principais métodos de XAI, as técnicas em que as equipes de dados e AI confiam e como escolher entre elas.
Decisões em áreas como concessão de crédito, contratação, saúde, detecção de fraudes ou seguros podem ter grandes consequências para as pessoas. Os indivíduos têm o direito de saber por que sua solicitação foi rejeitada, uma transação foi sinalizada ou um tratamento específico foi recomendado, especialmente se a AI estiver envolvida. A falta de transparência não é apenas inconveniente. Em muitos contextos, ela pode ser um risco. Aqui estão quatro razões práticas pelas quais os métodos de XAI são importantes:
O comportamento do modelo também pode mudar com o tempo, à medida que os dados do mundo real mudam. A explicabilidade apoia o monitoramento contínuo.
Os métodos de XAI geralmente se dividem em duas categorias: modelos que são explicáveis por design e métodos que explicam um modelo após o fato (post-hoc). Na primeira categoria, la estrutura do modelo é simples o suficiente para ser lida diretamente. Os exemplos incluem árvores de decisão, regressões lineares ou sistemas baseados em regras.
Na segunda, o modelo é complexo demais para ser lido diretamente, de modo que uma técnica separada é aplicada após o treinamento para investigar o que o modelo está fazendo. Exemplos de técnicas incluem a execução de experimentos em um modelo já treinado, a aproximação do modelo com algo mais simples ou o rastreamento de quais entradas tiveram maior influência em um resultado específico.
Em ambos os casos, no entanto, a análise não altera o modelo, ela o interroga.
O fluxo de trabalho básico é o seguinte:
Antes de nos aprofundarmos em métodos específicos, existem quatro termos que surgem com frequência nas discussões sobre XAI, e conhecê-los ajudará a esclarecer as explicações posteriores.
| Termo | O que significa | Exemplo |
|---|---|---|
| Modelo interpretável | Um modelo que é simples o suficiente para um ser humano acompanhar por conta própria — sem a necessidade de ferramentas extras. | Uma árvore de decisão ou regressão linear cuja lógica você pode ler diretamente. |
| Modelo explicável | Um modelo complexo combinado com uma técnica separada que explica o comportamento do modelo depois de treinado. | Uma rede neural profunda analisada com SHAP ou LIME. |
| Explicação global | Descreve como um modelo se comporta no geral, em todas as entradas. | "A renda e a pontuação de crédito são os dois principais fatores em todas as decisões de empréstimo." |
| Explicação local | Descreve por que um modelo fez uma previsão específica. | "Este candidato foi recusado porque sua relação dívida/renda era muito alta." |
Os métodos de XAI são normalmente agrupados pela forma como geram explicações. As três descrições a seguir cobrem as principais técnicas atualmente em uso, bem como as compensações (trade-offs) que você deve considerar em relação à transparência, precisão e adequação prática.
Os modelos intrinsecamente interpretáveis são transparentes por design. A própria estrutura do modelo revela como ele toma decisões, de modo que nenhuma ferramenta ou técnica adicional é necessária para analisar a lógica do modelo. Os exemplos incluem árvores de decisão, que seguem um fluxograma de regras de sim/não que você pode percorrer manualmente, e regressão linear e logística, que atribui um peso numérico a cada entrada para que você possa ver exatamente como cada atributo (feature) contribui para o resultado. Modelos aditivos generalizados e sistemas baseados em regras funcionam de maneira semelhante.
A compensação aqui é a precisão. Modelos interpretáveis são fáceis de explicar, mas geralmente menos precisos do que modelos complexos para problemas difíceis, como reconhecimento de imagem ou compreensão de linguagem. No entanto, para setores altamente regulamentados onde cada decisão deve ser defensável, eles costumam ser a escolha padrão.
Os métodos post-hoc são aplicados após o treinamento do modelo. Quando a maioria das pessoas fala em XAI, é a isso que se referem. Ferramentas como SHAP, LIME e contrafactuais se enquadram nessa categoria.
Os métodos post-hoc geralmente são a única opção para modelos de deep learning, modelos de linguagem de grande porte (LLMs) e outros sistemas complexos onde a matemática subjacente é complexa demais para ser lida diretamente. A compensação, no entanto, é que as explicações post-hoc são aproximações, não cálculos internos exatos.
Esta categoria refere-se a métodos que geram um resultado visual mostrando qual parte da entrada direcionou a decisão do modelo. Os exemplos incluem mapas de saliência e Grad-CAM, que destacam quais pixels em uma imagem foram mais importantes. As visualizações de atenção destacam em quais palavras de uma frase o modelo se concentrou. Para modelos de imagem e texto, um mapa de calor ou destaque costuma ser mais intuitivo do que uma lista de números, tornando esses métodos especialmente úteis ao comunicar resultados a partes interessadas não técnicas. Assim como os métodos post-hoc, os resultados de visualização devem ser tratados como sinais informativos, não como provas definitivas.
A tabela abaixo resume os métodos de XAI mais amplamente utilizados, seguidos por descrições mais detalhadas das cinco técnicas que os profissionais usam com mais frequência.
| Método | Escopo | Agnóstico ao modelo? | Resultado | Melhor para |
|---|---|---|---|---|
| SHAP | Local + global | Sim | Contribuição numérica de cada atributo para uma previsão | Modelos tabulares, modelos baseados em árvore, uso geral |
| LIME | Local | Sim | Um modelo substituto simples que explica uma previsão | Explicações locais rápidas em vários tipos de modelo |
| LRP | Local | Não (precisa de componentes internos da rede neural) | Pontuações de relevância rastreadas de volta pelas camadas da rede | Redes neurais profundas, modelos de imagem |
| Gradientes integrados | Local | Não (precisa de gradientes do modelo) | Atribuição em nível de pixel ou token | Redes neurais, imagens e texto |
| Mapas de saliência / Grad-CAM | Local | Não | Mapa de calor sobre uma imagem mostrando regiões influentes | Modelos de visão computacional |
| Explicações contrafatuais | Local | Sim | "O que precisaria mudar para um resultado diferente?" | Decisões que afetam indivíduos (empréstimos, contratações) |
| Gráficos de dependência parcial (PDP) | Global | Sim | Gráfico mostrando como uma feature afeta as previsões em média | Compreensão do comportamento geral do modelo |
| Importância de feature por permutação | Global | Sim | Lista ordenada de quais features são mais importantes no geral | Depuração de modelos, seleção de features |
| Anchors | Local | Sim | Regras "se-então" que definem uma previsão | Explicações em estilo de regra para usuários finais |
| TCAV | Global | Não | O quanto um conceito de alto nível influencia as previsões | Modelos de imagem, auditorias em nível de conceito |
| Visualização de atenção | Local | Não (precisa de componentes internos do transformer) | Destaque de quais tokens o modelo focou | LLMs, transformers, modelos de NLP |
O método de XAI conhecido como SHapley Additive exPlanations (SHAP) atribui a cada feature de entrada uma pontuação numérica que mostra o quanto ela aumentou ou diminuiu uma previsão em comparação com uma linha de base (baseline). Pergunte ao SHAP por que um empréstimo foi negado e ele poderá lhe dizer que a relação dívida/renda do solicitante reduziu a probabilidade de aprovação em 22 pontos, enquanto seu histórico de emprego adicionou 8. O método é baseado nos valores de Shapley da teoria dos jogos cooperativos, uma forma fundamentada de distribuir o crédito de maneira justa entre os colaboradores, o que dá ao SHAP uma base teórica mais sólida do que a maioria das alternativas.
Os principais pontos fortes do SHAP são o fato de ser agnóstico ao modelo e produzir explicações locais (previsão única) e globais (modelo geral). Ele também é a principal ferramenta de explicabilidade suportada pelo Databricks AutoML e pelo autologging do MLflow. A desvantagem é o custo de computação. O SHAP pode ser lento em grandes conjuntos de dados ou modelos complexos, e isso deve ser planejado no orçamento de acordo.
O método LIME (Local Interpretable Model-agnostic Explanations) de XAI escolhe uma previsão que você deseja entender e, em seguida, cria um modelo menor e fácil de ler para analisar como ele gera essa previsão. Para fazer isso, o LIME ajusta ligeiramente a entrada, muitas vezes, e observa como a saída do modelo muda. Ele usa esses resultados para ajustar um substituto (surrogate) simplificado, normalmente um modelo linear, que se aproxima da IA que está analisando. O resultado é uma lista ordenada de features e sua influência direcional na previsão.
O LIME funciona em qualquer tipo de modelo e gera explicações pontuais rapidamente. A desvantagem é que as explicações podem ser instáveis. Como o LIME usa perturbações aleatórias, executá-lo duas vezes na mesma previsão pode produzir resultados significativamente diferentes, o que pode ser uma preocupação real em cenários de alto risco ou em contextos onde a auditoria é necessária.
Uma explicação contrafatual responde a uma pergunta direta: O que precisaria ter mudado para que o modelo tomasse uma decisão diferente? Por exemplo, a afirmação: "Se sua renda anual fosse US$ 10.000 maior, esta solicitação teria sido aprovada." Isso é um contrafatual.
Esse tipo de XAI repercute bem com públicos não técnicos porque é acionável. Os contrafatuais se encaixam naturalmente na forma como as pessoas já pensam sobre causa e efeito, e dão a elas algo a fazer com a informação. Eles também funcionam bem em estruturas regulatórias que incluem o direito a uma explicação, como o Artigo 22 da GDPR. A desvantagem geralmente é prática. Um contrafatual só é útil se a mudança sugerida for realista e estiver sob o controle da pessoa. "Se você fosse 10 anos mais jovem" não é uma explicação acionável.
Mapas de saliência e Grad-CAM são técnicas visuais de XAI para modelos baseados em imagens. Eles produzem um mapa de calor sobreposto à imagem original mostrando em quais pixels ou regiões o modelo se concentrou ao fazer sua previsão. Em um contexto de imagem médica, um resultado do Grad-CAM em uma classificação de raio-X pode mostrar que o modelo se concentrou em uma determinada região do pulmão, que é exatamente o que um radiologista precisa ver antes de confiar no resultado.
Esses métodos são amplamente utilizados em visão computacional, imagens médicas, sistemas autônomos e controle de qualidade industrial. Pesquisas mostram que os mapas de saliência podem parecer convincentes, mas não refletem com precisão o que o modelo está fazendo. Trate-os como um sinal, não como um resultado definitivo.
Os modelos de transformer fornecem a arquitetura por trás da maioria dos LLMs modernos e possuem mecanismos de atenção integrados que ponderam o quanto cada token de entrada contribui para cada token de saída. As visualizações de atenção transformam esses pesos em um mapa de destaque sobre o texto, mostrando em quais palavras de entrada o modelo mais confiou ao gerar uma resposta específica.
As visualizações são legíveis sem a necessidade de conhecimento especializado, o que as torna uma das ferramentas de explicabilidade mais acessíveis para LLMs. Elas nem sempre são uma explicação fiel do resultado final. Pesquisas revelaram que features com altos pesos de atenção nem sempre refletem com precisão a decisão real do modelo.
A escolha do método de XAI correto depende do modelo, do público e da pergunta que você está tentando responder. A estrutura a seguir pode ajudar a orientar sua decisão:
Os métodos de XAI são poderosos, mas não são perfeitos. Qualquer pessoa que os implante em produção deve entender suas limitações.
A maioria dos métodos post hoc, como SHAP, LIME ou mapas de saliência, aproxima o que o modelo está fazendo em vez de revelar o cálculo interno exato. Dois métodos diferentes aplicados à mesma previsão podem produzir explicações diferentes. Trate os resultados de XAI como indícios, não como provas.
Como mencionado, métodos como SHAP e gradientes integrados podem ser lentos em grandes conjuntos de dados ou modelos complexos. Executar explicações completas para cada previsão em um sistema de produção de alto volume pode não ser viável, e aplicá-las seletivamente levanta questões sobre representatividade. Planeje o custo de computação, bem como os custos de modelagem, ao considerar qual método de XAI escolher.
Alguns métodos, especialmente o LIME, produzem resultados diferentes em execuções repetidas da mesma previsão devido à amostragem aleatória no processo de perturbação. Essa instabilidade é uma preocupação real para contextos auditáveis ou regulamentados. Ataques adversários também podem manipular explicações post hoc para ocultar o comportamento real do modelo. Embora as pesquisas por contramedidas estejam em andamento, esses ataques são outro motivo para não tratar as explicações como invioláveis.
Os modelos mais interpretáveis costumam ser os menos precisos em problemas complexos, e os modelos mais precisos costumam ser os mais difíceis de explicar. Esse não é um problema de engenharia solucionável, é uma escolha de design deliberada. As organizações precisam avaliar suas prioridades. Elas querem um modelo menos preciso, mas totalmente transparente, ou um modelo de caixa preta mais preciso com ferramentas de XAI integradas? A resposta deve ser orientada pela importância da decisão. Domínios de alto risco, como saúde, empréstimos ou justiça criminal, muitas vezes justificam a priorização da explicabilidade, mesmo que isso custe um pouco da precisão bruta.
Os métodos de XAI já estão em produção em setores regulamentados e de alto risco. Veja como diferentes métodos costumam ser usados em vários setores:
MLflow, a plataforma de ciclo de vida de ML de código aberto criada pela Databricks, oferece suporte ao rastreamento, controle de versão e registro de artefatos de explicação do modelo junto com o próprio modelo. Para os tipos de modelo suportados, o autologging do MLflow pode capturar valores SHAP e pontuações de importância de recursos, o que mantém as explicações vinculadas à versão específica do modelo e à execução de treinamento que as gerou. Databricks AutoML também gera automaticamente gráficos SHAP e notebooks de valores Shapley para os modelos que produz, oferecendo às equipes um ponto de partida para a explicabilidade sem a necessidade de configuração manual.
Unity Catalog fornece a camada de governança que torna as explicações auditáveis ao longo do tempo. Essa camada inclui linhagem de modelo, controle de versão, controle de acesso centralizado e logs de auditoria que permitem às equipes rastrear quais dados treinaram cada modelo e quem os acessou. Juntos, o MLflow e o Unity Catalog oferecem às equipes de dados e IA a infraestrutura para incorporar a explicabilidade ao ciclo de vida do modelo, em vez de adicioná-la apenas no final.
As explicações de XAI são sempre precisas?
Não. A maioria dos métodos de XAI, especialmente técnicas post hoc como SHAP e LIME, produz aproximações do comportamento do modelo, e não reconstruções exatas da computação interna. Dois métodos aplicados à mesma previsão podem gerar explicações diferentes. Trate os resultados de XAI como evidências, não como provas conclusivas. Validar as explicações com base no conhecimento de domínio e combinar vários métodos oferece uma visão mais confiável.
Qual é a diferença entre XAI e IA interpretável?
A IA interpretável refere-se a modelos que são transparentes por design e cuja estrutura é simples o suficiente para ser acompanhada diretamente. A IA explicável é mais ampla e inclui modelos interpretáveis, bem como modelos complexos de caixa preta combinados com técnicas separadas que explicam seu comportamento a posteriori. Um modelo interpretável não precisa de ferramentas de XAI, mas um modelo explicável sim.
Qual é a diferença entre explicações globais e locais?
Uma explicação global descreve como o modelo se comporta em todas as entradas, por exemplo, quais recursos são mais importantes no geral ou quais padrões determinam as previsões em geral. Uma explicação local descreve por que o modelo fez uma previsão específica para uma entrada específica. Ambos os tipos são úteis, e a melhor prática de XAI usa métodos globais para entender o modelo e métodos locais para explicar decisões individuais.
Qual é a diferença entre XAI e IA responsável?
A IA responsável é uma disciplina mais ampla, que abrange justiça, segurança, privacidade, transparência e responsabilidade em todo o ciclo de vida da IA. A IA explicável é o conjunto de métodos que tornam o comportamento do modelo transparente e auditável. Portanto, a explicabilidade é necessária para a IA responsável, mas não é suficiente por si só. Um modelo pode ser explicável e ainda assim ser tendencioso, inseguro ou usado incorretamente.
Os métodos de XAI podem ser usados em IA generativa?
Sim, embora as técnicas sejam diferentes daquelas usadas em modelos tradicionais de ML. Para LLMs e outros sistemas baseados em transformadores, a visualização de atenção é a abordagem mais utilizada. O LIME também pode ser aplicado a entradas de texto. Dito isso, a IA generativa apresenta desafios de explicabilidade mais difíceis do que os modelos tabulares ou de imagem, pois os resultados são mais variados, as janelas de contexto são mais longas e a relação entre os tokens de entrada e o texto gerado é mais complexa. A explicabilidade para a IA generativa é uma área ativa de pesquisa, e os métodos atuais devem ser tratados como sinais parciais, e não como explicações completas.
Os métodos de XAI oferecem às equipes de dados e IA as ferramentas para criar sistemas que as pessoas possam entender, confiar e auditar. A escolha do método correto depende do modelo, do público e da importância da decisão de saída, mas o objetivo subjacente é o mesmo: tornar o comportamento da IA visível o suficiente para agir com confiança.
Saiba mais sobre como a Databricks apoia a IA responsável e governada em nossa estrutura de governança de dados corporativos ou na estrutura de governança de IA da Databricks.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.