LLM을 기반으로 환경을 인식하고, 추론, 계획, 도구 사용을 통해 의사 결정을 내리고 행동을 취하는 자율 소프트웨어 시스템
작성자: Databricks 직원
설명 가능한 AI(XAI)는 사람들이 AI 시스템이 특정 출력에 도달한 과정을 이해하도록 돕는 기술을 의미합니다. 이는 모델이 사람이 작성한 규칙을 따르는 대신 데이터에서 패턴을 학습하는 머신러닝 및 딥러닝과 특히 밀접한 관련이 있습니다.
모델이 더욱 강력해짐에 따라 그 의사 결정 과정을 추적하기가 더 어려워질 수 있습니다. 딥러닝 모델은 수십억 개의 파라미터를 포함할 수 있어, 거래를 승인하거나, 사기를 감지하거나, 대출을 거부하거나, MRI에서 이상 징후를 발견한 이유를 이해하기 어렵게 만듭니다. 이를 흔히 '블랙박스' 문제라고 부릅니다.
XAI는 팀이 모델이 다음과 같은지 평가할 수 있는 방법을 제공하여 이 블랙박스를 열 수 있도록 돕습니다.
AI가 더 중대한 의사 결정을 내리게 됨에 따라, 모델이 왜 특정 답변에 도달했는지 이해하는 것은 답변 자체만큼이나 중요해졌습니다. 이 글에서는 주요 XAI 방법, 데이터 및 AI 팀이 의존하는 기술, 그리고 이들 중에서 선택하는 방법을 다룹니다.
대출, 채용, 의료, 사기 감지, 보험 등의 분야에서 내려지는 결정은 개인에게 중대한 영향을 미칠 수 있습니다. 특히 AI가 관여된 경우, 사람들은 자신의 신청이 거부되었거나, 거래가 의심스러운 것으로 표시되었거나, 특정 치료법이 권장된 이유를 알 권리가 있습니다. 투명성 부족은 단순히 불편한 것에 그치지 않습니다. 많은 상황에서 이는 법적 책임이나 위험이 될 수 있습니다. XAI 방법이 중요한 네 가지 실질적인 이유는 다음과 같습니다.
실제 데이터가 변화함에 따라 모델의 동작도 시간이 지나면서 변할 수 있습니다. 설명 가능성은 지속적인 모니터링을 지원합니다.
XAI 방법은 일반적으로 설계 자체로 설명이 가능한 모델과 사후에 모델을 설명하는 방법의 두 가지 범주로 나뉩니다. 첫 번째 범주에서는 모델의 구조가 직접 읽을 수 있을 만큼 간단합니다. 의사 결정 트리(decision tree), 선형 회귀(linear regression) 또는 규칙 기반 시스템 등이 그 예입니다.
두 번째 범주에서는 모델이 너무 복잡해서 직접 읽을 수 없으므로, 학습 후에 별도의 기술을 적용하여 모델이 무엇을 하고 있는지 조사합니다. 예시 기술로는 이미 학습된 모델에 대해 실험을 실행하거나, 모델을 더 간단한 것으로 근사화하거나, 특정 출력에 가장 큰 영향을 미친 입력이 무엇인지 추적하는 것 등이 있습니다.
하지만 두 경우 모두 분석이 모델을 변경하는 것이 아니라 모델을 심문(조사)하는 것입니다.
기본적인 워크플로우는 다음과 같습니다.
구체적인 방법을 살펴보기 전에, XAI 논의에서 자주 등장하는 네 가지 용어가 있으며 이를 알아두면 이후의 논의를 이해하는 데 도움이 됩니다.
| 용어 | 의미 | 예시 |
|---|---|---|
| 해석 가능한 모델 (Interpretable model) | 추가적인 도구 없이 인간이 스스로 과정을 따라갈 수 있을 만큼 단순한 모델입니다. | 로직을 직접 읽을 수 있는 의사 결정 트리 또는 선형 회귀입니다. |
| 설명 가능한 모델 (Explainable model) | 학습된 모델의 동작을 설명하는 별도의 기술과 결합된 복잡한 모델입니다. | SHAP 또는 LIME으로 분석된 심층 신경망입니다. |
| 글로벌 설명 (Global explanation) | 모든 입력에 대해 모델이 전반적으로 어떻게 동작하는지 설명합니다. | "소득과 신용 점수는 모든 대출 결정에서 가장 중요한 두 가지 요인입니다." |
| 로컬 설명 (Local explanation) | 모델이 왜 하나의 특정 예측을 내렸는지 설명합니다. | "이 신청자는 소득 대비 부채 비율이 너무 높아 거부되었습니다." |
XAI 방법은 일반적으로 설명을 생성하는 방식에 따라 분류됩니다. 다음 세 가지 설명은 현재 사용되는 주요 기술과 투명성, 정확성 및 실용적 적합성과 관련하여 고려해야 할 절충점(trade-off)을 다룹니다.
내재적으로 해석 가능한 모델은 설계 자체로 투명합니다. 모델 자체의 구조가 의사 결정 방식을 드러내므로 모델의 로직을 분석하기 위해 추가적인 도구나 기술이 필요하지 않습니다. 예시로는 직접 손으로 따라갈 수 있는 예/아니오 규칙의 순서 도를 따르는 의사 결정 트리와, 각 입력에 수치적 가중치를 부여하여 각 특성(feature)이 출력에 어떻게 기여하는지 정확히 볼 수 있는 선형 및 로지스틱 회귀가 있습니다. 일반화 가법 모델(generalized additive model)과 규칙 기반 시스템도 유사하게 작동합니다.
여기서 절충해야 할 점은 정확성입니다. 해석 가능한 모델은 설명하기 쉽지만, 이미지 인식이나 언어 이해와 같은 까다로운 문제에서는 복잡한 모델보다 정확도가 떨어지는 경우가 많습니다. 하지만 모든 결정에 대해 정당성을 입증해야 하는 규제가 엄격한 산업에서는 이 모델이 기본 선택이 되는 경우가 많습니다.
사후(Post-hoc) 방법은 모델이 학습된 후에 적용됩니다. 대부분의 사람들이 XAI를 말할 때 의미하는 것이 바로 이것입니다. SHAP, LIME, 반사실적 설명(counterfactuals)과 같은 도구가 모두 여기에 해당합니다.
사후 방법은 일반적으로 딥러닝 모델, 대규모 언어 모델(LLM) 및 기본 수학이 너무 복잡하여 직접 읽을 수 없는 기타 복잡한 시스템에 대한 유일한 옵션입니다. 하지만 절충해야 할 점은 사후 설명이 정확한 내부 계산이 아니라 근사치라는 것입니다.
이 범주는 입력의 어떤 부분이 모델의 결정을 유도했는지 보여주는 시각적 출력을 생성하는 방법을 나타냅니다. 예시로는 이미지에서 어떤 픽셀이 가장 중요했는지 강조하는 돌출도 맵(saliency map)과 Grad-CAM이 있습니다. 어텐션(attention) 시각화는 모델이 문장의 어떤 단어에 집중했는지 강조합니다. 이미지 및 텍스트 모델의 경우, 히트맵이나 하이라이트 가 숫자 목록보다 더 직관적인 경우가 많기 때문에 비기술 분야의 이해관계자에게 결과를 전달할 때 특히 유용합니다. 사후 방법과 마찬가지로 시각화 출력은 결정적인 증거가 아니라 유용한 정보 신호로 취급되어야 합니다.
아래 표는 가장 널리 사용되는 XAI 방법을 요약한 것이며, 이어서 실무자들이 가장 자주 사용하는 다섯 가지 기술에 대한 자세한 설명이 제공됩니다.
| 방법 | 범위 | 모델 독립적(Model-agnostic) 여부? | 출력 | 가장 적합한 용도 |
|---|---|---|---|---|
| SHAP | 로컬 + 글로벌 | 예 | 예측에 대한 각 특성(feature)의 수치적 기여도 | 정형 모델, 트리 기반 모델, 광범위한 사용 |
| LIME | 로컬 | 예 | 하나의 예측을 설명하는 단순한 대리(surrogate) 모델 | 다양한 모델 유형에 걸친 빠른 로컬 설명 |
| LRP | 로컬 | 아니요 (신경망 내부 구조 필요) | 네트워크 레이어를 통해 역추적되는 기여도 점수 | 심층 신경망, 이미지 모델 |
| Integrated gradients | 로컬 | 아니요 (모델 그래디언트 필요) | 픽셀 또는 토큰 수준의 기여도 | 신경망, 이미지 및 텍스트 |
| Saliency maps / Grad-CAM | 로컬 | 아니요 | 영향력 있는 영역을 보여주는 이미지 위의 히트맵 | 컴퓨터 비전 모델 |
| Counterfactual explanations | 로컬 | 예 | "다른 결과를 얻으려면 무엇이 바뀌어야 하는가?" | 개인에게 영향을 미치는 결정 (대출, 채용 등) |
| Partial dependence plots (PDP) | 글로벌 | 예 | 하나의 특성이 평균적으로 예측에 미치는 영향을 보여주는 차트 | 전반적인 모델 동작 이해 |
| Permutation feature importance | 글로벌 | 예 | 전반적으로 어떤 특성이 가장 중요한지 보여주는 순위 목록 | 모델 디버깅, 특성 선택 |
| Anchors | 로컬 | 예 | 예측을 고정하는 "If-then" 규칙 | 최종 사용자를 위한 규칙 형태의 설명 |
| TCAV | 글로벌 | 아니요 | 고수준 개념이 예측에 미치는 영향의 정도 | 이미지 모델, 개념 수준 감사 |
| Attention visualization | 로컬 | 아니요 (트랜스포머 내부 구조 필요) | 모델이 집중한 토큰을 강조 표시 | LLM, 트랜스포머, NLP 모델 |
SHapley Additive exPlanations(SHAP)로 알려진 XAI 방법은 각 입력 특성(feature)에 기준값(baseline) 대비 예측값을 얼마나 올리거나 내렸는지 보여주는 수치 점수를 부여합니다. 대출이 거절된 이유를 SHAP에 물어보면, 신청자의 소득 대비 부채 비율이 승인 확률을 22포인트 낮춘 반면, 고용 이력은 8포인트를 더했다고 알려줄 수 있습니다. 이 방법은 협력적 게임 이론의 샤플리 값(Shapley values)에 뿌리를 두고 있으며, 이는 기여도에 따라 크레딧을 공정하게 배분하는 원칙적인 방법입니다. 덕분에 SHAP은 다른 대안들에 비해 더 강력한 이론적 기반을 갖추고 있습니다.
SHAP의 주요 장점은 모델에 구애받지 않으며(model-agnostic), 로컬(단일 예측) 및 글로벌(전체 모델) 설명을 모두 제공한다는 것입니다. 또한 Databricks AutoML 및 MLflow 자동 로깅(autologging)에서 지원하는 주요 설명 가능성 도구이기도 합니다. 단점은 계산 비용입니다. SHAP은 대규모 데이터 세트나 복잡한 모델에서 느려질 수 있으므로 이에 맞춰 예산을 책정해야 합니다.
XAI의 LIME(Local Interpretable Model-agnostic Explanations) 방법은 이해하고자 하는 단일 예측을 선택한 다음, 해당 예측이 어떻게 생성되었는지 분석하기 위해 더 작고 읽기 쉬운 모델을 구축합니다. 이를 위해 LIME은 입력을 여러 번 미세하게 조정하고 모델의 출력이 어떻게 변하는지 관찰합니다. 이러한 결과를 사용하여 분석 중인 AI를 근사하는 단순화된 대리 모델(대개 선형 모델)을 학습시킵니다. 출력 결과는 특성들의 순위 목록과 이들이 예측에 미치는 방향성 영향입니다.
LIME은 모든 모델 유형에서 작동하며 일회성 설명을 빠르게 생성합니다. 단점은 설명이 불안정할 수 있다는 것입니다. LIME은 무작위 섭동(random perturbations)을 사용하기 때문에 동일한 예측에 대해 두 번 실행하면 유의미하게 다른 결과가 나올 수 있으며, 이는 위험성이 높거나 감사가 필요한 상황에서 실제 문제가 될 수 있습니다.
반사실적 설명은 "모델이 다른 결정을 내리려면 무엇이 바뀌어야 했을까?"라는 직접적인 질문에 답합니다. 예를 들어, "연소득이 10,000달러 더 높았다면 이 신청이 승인되었을 것입니다"라는 문장이 바로 반사실적 설명입니다.
이러한 유형의 XAI는 실행 가능하기 때문에 비기술 분야의 청중에게도 쉽게 와닿습니다. 반사실적 설명은 사람들이 평소 인과관계에 대해 생각하는 방식과 자연스럽게 부합하며, 정보 를 바탕으로 조치를 취할 수 있도록 돕습니다. 또한 GDPR 제22조와 같이 설명 요구권을 포함하는 규제 프레임워크 내에서도 잘 작동합니다. 단점은 대개 실용성 측면에 있습니다. 반사실적 설명은 제안된 변경 사항이 현실적이고 개인이 통제할 수 있는 범위 내에 있을 때만 유용합니다. "10살 더 젊었다면"과 같은 설명은 실행 가능한 설명이 아닙니다.
Saliency maps와 Grad-CAM은 이미지 기반 모델을 위한 시각적 XAI 기법입니다. 이 기법들은 원래 이미지 위에 히트맵을 겹쳐서 모델이 예측을 수행할 때 어떤 픽셀이나 영역에 집중했는지 보여줍니다. 의료 영상 분야에서 X-ray 분류에 대한 Grad-CAM 출력은 모델이 폐의 특정 영역에 집중했음을 보여줄 수 있으며, 이는 방사선 전문의가 결과를 신뢰하기 전에 확인해야 하는 바로 그 부분입니다.
이러한 방법은 컴퓨터 비전, 의료 영상, 자율 주행 시스템 및 산업 품질 관리에서 널리 사용됩니다. 연구에 따르면 Saliency maps는 그럴듯해 보일 수 있지만 모델이 실제로 수행하는 작업을 정확하게 반영하지 못할 수도 있습니다. 이를 결정적인 결과가 아닌 하나의 신호로 취급하세요.
트랜스포머 모델은 대부분의 현대 LLM의 기반이 되는 아키텍처를 제공하며, 각 입력 토큰이 각 출력 토큰에 기여하는 정도를 가중치로 나타내는 자체 어텐션 메커니즘을 가지고 있습니다. 어텐션 시각화는 이러한 가중치를 텍스트 위의 강조 표시 맵으로 변환하여, 모델이 특정 응답을 생성할 때 어떤 입력 단어에 가장 많이 의존했는지 보여줍니다.
이러한 시각화 자료는 전문 지식 없이도 읽을 수 있어 LLM을 위 한 가장 접근하기 쉬운 설명 가능성 도구 중 하나입니다. 하지만 이것이 항상 최종 출력에 대한 충실한 설명이 되는 것은 아닙니다. 연구에 따르면 어텐션 가중치가 높은 특성이 모델의 실제 결정을 항상 정확하게 반영하는 것은 아닙니다.
적절한 XAI 방법을 선택하는 것은 모델, 청중, 그리고 해결하려는 질문에 따라 달라집니다. 다음 프레임워크가 결정을 내리는 데 도움이 될 수 있습니다.
XAI 방법은 강력하지만 완벽하지는 않습니다. 프로덕션 환경에 이를 배포하는 사람은 누구나 그 한계를 이해해야 합니다.
SHAP, LIME 또는 Saliency maps와 같은 대부분의 사후(post hoc) 방법은 정확한 내부 계산을 밝히기보다는 모델이 수행하는 작업을 근사화합니다. 동일한 예측에 적용된 두 가지 서로 다른 방법이 서로 다른 설명을 생성할 수 있습니다. XAI 출력은 증명이 아닌 증거로 취급하세요.
앞서 언급했듯이 SHAP 및 통합 그래디언트와 같은 방법은 대규모 데이터 세트나 복잡한 모델에서 느려질 수 있습니다. 대량의 프로덕션 시스템에서 모든 예측에 대해 전체 설명을 실행하는 것은 불가능할 수 있으며, 선택적으로 적용하는 것은 대표성에 대한 의문을 제기합니다. 어떤 XAI 방법을 선택할지 고려할 때 모델링 비용뿐만 아니라 계산 비용도 예산에 반영하세요.
일부 방법, 특히 LIME은 섭동 과정에서의 무작위 샘플링으로 인해 동일한 예측을 반복해서 실행할 때 다른 결과를 생성합니다. 이러한 불안정성은 감사가 필요하거나 규제를 받는 환경에서 실제 우려 사항이 됩니다. 적대적 공격(adversarial attacks) 또한 사후 설명을 조작하여 실제 모델 동작을 모호하게 만들 수 있습니다. 대응책에 대한 연구가 진행 중이지만, 이러한 공격은 설명을 위조 방지(tamper-proof)가 가능한 것으로 취급해서는 안 되는 또 다른 이유입니다.
가장 해석하기 쉬운 모델은 복잡한 문제에서 정확도가 가장 떨어지는 경우가 많고, 가장 정확한 모델은 설명하기가 가장 어려운 경우가 많습니다. 이는 해결 가능한 엔지니어링 문제가 아니라 의도적인 디자인 선택입니다. 조직은 우선순위를 평가해야 합니다. 정확도는 떨어지지만 완전히 투명한 모델을 원하는지, 아니면 XAI 도구가 계층화된 더 정확한 블랙박스 모델을 원하는지 결정해야 합니다. 답은 결정의 중요성에 따라 달라져야 합니다. 의료, 대출, 형사 사법과 같이 위험성이 높은 도메인에서는 원시 정확도를 일부 희생하더라도 설명 가능성을 우선시하는 것이 타당한 경우가 많습니다.
XAI 방법론은 이미 규제가 엄격하고 리스크가 큰 다양한 산업 분야에서 실제 서비스에 적용되어 사용되고 있습니다. 여러 산업 분야에서 각 방법론이 어떻게 활용되는지 소개합니다.
Databricks가 개발한 오픈 소스 ML 라이프사이클 플랫폼인 MLflow는 모델 추적, 버전 관리 및 모델 자체와 함께 설명 아티팩트 로깅을 지원합니다. 지원되는 모델 유형의 경우, MLflow 자동 로깅은 SHAP 값과 특성 중요도 점수를 캡처하여 설명을 해당 설명을 생성한 특정 모델 버전 및 학습 실행에 연결된 상태로 유지할 수 있습니다. 또한 Databricks AutoML은 생성하는 모델에 대한 SHAP 플롯과 Shapley 값 노트북을 자동으로 생성하므로, 팀이 수동 설정 없이도 설명 가능성을 확보할 수 있는 출발점을 제공합니다.
Unity Catalog는 시간이 지나도 설명을 감사할 수 있도록 하는 거버넌스 레이어를 제공합니다. 이 레이어에는 모델 계보(lineage), 버전 관리, 중앙 집중식 액세스 제어 및 감사 로그가 포함되어 있어 팀이 어떤 데이터로 어떤 모델을 학습시켰는지, 그리고 누가 모델에 액세스했는지 추적할 수 있습니다. MLflow와 Unity Catalog는 데이터 및 AI 팀이 모델 라이프사이클의 마지막에 설명 가능성을 임시방편으로 추가하는 대신, 라이프사이클 자체에 기본적으로 내장할 수 있는 인프라를 제공합니다.
Are XAI explanations always accurate?
아닙니다. 대부분의 XAI 방법론, 특히 SHAP 및 LIME과 같은 사후(post hoc) 기법은 내부 연산을 정확하게 재구성하는 것이 아니라 모델 동작의 근사치를 생성합니다. 동일한 예측에 두 가지 방법론을 적용하면 서로 다른 설명이 도출될 수 있습니다. 따라서 XAI 결과는 결정적인 증거가 아닌 참고 자료로 취급해야 합니다. 도메인 전문가의 지식을 바탕으로 설명을 검증하고 여러 방법론을 결합하면 더 신뢰할 수 있는 결과를 얻을 수 있습니다.
What is the difference between XAI and interpretable AI?
해석 가능한 AI는 설계 자체부터 투명하며 구조가 단순하여 직접 파악할 수 있는 모델을 의미합니다. 설명 가능한 AI(XAI)는 더 넓은 개념으로, 해석 가능한 모델뿐만 아니라 복잡한 블랙박스 모델에 사후적으로 동작을 설명하는 별도의 기술을 결합한 모델까지 포함합니다. 해석 가능한 모델은 XAI 도구가 필요하지 않지만, 설명 가능한 모델은 필요합니다.
What is the difference between global and local explanations?
전역적 설명은 전반적으로 어떤 특성이 가장 중요한지 또는 일반적으로 어떤 패턴이 예측을 유도하는지 등 모든 입력값에 대해 모델이 어떻게 동작하는지 설명합니다. 국소적 설명은 모델이 특정 입력값에 대해 왜 특정 예측을 내렸는지 설명합니다. 두 유형 모두 유용하며, 가장 좋은 XAI 실무 방식은 전역적 방법론을 사용하여 모델을 이해하고 국소적 방법론을 사용하여 개별 결정을 설명하는 것입니다.
What's the difference between XAI and responsible AI?
책임감 있는 AI는 전체 AI 라이프사이클에 걸쳐 공정성, 안전성, 개인정보 보호, 투명성 및 책임성을 포괄하는 더 넓은 범위의 규율입니다. 설명 가능한 AI(XAI)는 모델 동작을 투명하고 감사 가능하게 만드는 방법론의 집합입니다. 따라서 설명 가능성은 책임감 있는 AI를 위해 필수적이지만, 그것만으로 충분하지는 않습니다. 모델이 설명 가능하더라도 여전히 편향되거나, 안전하지 않거나, 오용될 수 있습니다.
Can XAI methods be used on generative AI?
네, 다만 기존 ML 모델에 사용되는 기술과는 다릅니다. LLM 및 기타 트랜스포머 기반 시스템의 경우 어텐션 시각화(attention visualization)가 가장 널리 사용되는 접근 방식입니다. LIME 역시 텍스트 입력에 적용할 수 있습니다. 하지만 생성형 AI는 출력이 더 다양하고 컨텍스트 창이 더 길며 입력 토큰과 생성된 텍스트 간의 관계가 더 복잡하기 때문에, 정형 데이터나 이미지 모델보다 설명 가능성을 확보하기가 더 어렵습니다. 생성형 AI의 설명 가능성은 현재 활발히 연구 중인 분야이며, 현재의 방법론은 완전한 설명이라기보다는 부분적인 신호로 취급해야 합니다.
XAI 방법론은 데이터 및 AI 팀에게 사람들이 이해하고 신뢰하며 감사할 수 있는 시스템을 구축할 수 있는 도구를 제공합니다. 적절한 방법론을 선택하는 것은 모델, 대상 독자, 결과 결정의 중요성에 따라 달라지지만, 근본적인 목표는 동일합니다. 즉, 자신 있게 조치를 취할 수 있도록 AI 동작을 충분히 가시화하는 것입니다.
Databricks가 책임감 있고 거버넌스가 적용된 AI를 어떻게 지원하는지 엔터프라이즈 데이터 거버넌스 프레임워크 또는 Databricks AI 거버넌스 프레임워크에서 자세히 알아보세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.