SHAP (SHapley Additive exPlanations) 심층 해설
1. SHAP 개요와 등장 배경
현대의 머신러닝은 점점 복잡해지고 있으며, 이에 따라 설명 가능성(Explainability)이 필수가 되고 있습니다. 특히 금융, 의료, 법률 등의 분야에서는 모델이 어떻게 판단했는지를 투명하게 보여줄 필요가 있습니다.
SHAP은 이러한 요구를 충족하는 대표적인 XAI(Explainable AI) 기법으로, 협력 게임 이론의 Shapley Value 개념에 기반하여 각 피처가 예측에 기여한 정도를 정량적으로 설명합니다.
2. Shapley Value 이론적 배경
2.1 협력 게임 이론에서의 Shapley Value
Shapley Value는 협력 게임에서 각각의 플레이어(피처)가 팀의 총 보상에 얼마만큼 기여했는지를 공정하게 계산하기 위한 방법입니다.
2.2 Shapley Value의 수식
특정 피처 \( i \)의 Shapley Value는 다음 수식으로 정의됩니다.
$$ \phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|! (|N| - |S| - 1)!}{|N|!} \left[ v(S \cup \{i\}) - v(S) \right] $$
여기서:
- \( N \): 전체 피처 집합
- \( S \): 피처의 부분 집합
- \( v(S) \): 피처 집합 S가 가지는 가치 (모델 예측값)
3. SHAP의 기본 원리
SHAP은 모델 예측값을 기준값(Base Value)과 피처별 기여도(SHAP 값)로 분해합니다.
$$ f(x) = \phi_0 + \phi_1 + \phi_2 + \dots + \phi_M $$
- \( f(x) \): 모델의 예측값
- \( \phi_0 \): 기준값(Base Value)
- \( \phi_i \): 각 피처의 SHAP 값(기여도)
4. SHAP의 장점과 특징
- 이론적으로 공정한 설명 제공
- 모델에 구애받지 않는 적용 가능성 (모델 불가지론)
- 트리 기반 모델에서는 Tree SHAP으로 빠른 연산 가능
- 개별 예측(Local)과 전체 데이터(Global) 설명 가능
5. SHAP 알고리즘 종류
5.1 Kernel SHAP
- 모델 불가지론 적용 가능
- 계산량이 많아 샘플링이 필수
5.2 Tree SHAP
- 트리 기반 모델에 최적화
- 빠르고 정확한 SHAP 값 계산
5.3 Deep SHAP
- 딥러닝 모델에 최적화
- 신경망의 비선형성 반영 가능
6. SHAP 시각화
- Force Plot: 개별 예측값 변화 설명
- Summary Plot: 전체 데이터에서 피처 영향력 시각화
- Dependence Plot: 피처 값과 SHAP 값 관계 시각화
- Decision Plot: 모델의 의사결정 경로 시각화
7. 실무 적용 사례
7.1 금융 분야
대출 심사 및 리스크 평가 모델에 대한 설명 제공
7.2 의료 분야
질병 진단 및 치료 예측의 주요 변수 분석
7.3 제조 분야
장비 이상 탐지 및 예지보전(PdM) 인사이트 제공
8. SHAP과 다른 XAI 기법 비교
기법 | 접근 방식 | 장점 | 단점 |
---|---|---|---|
SHAP | 게임 이론 기반 | 공정성 보장, 전역/지역 설명 가능 | 고비용 연산 (특히 Kernel SHAP) |
LIME | 로컬 근사 모델 | 빠른 분석, 직관적 | 결과 일관성 낮음 |
Permutation Importance | 특징값 교란 | 모델 불가지론, 전역 설명 | 피처 상호작용 무시 |
9. 결론
SHAP은 설명 가능한 AI의 핵심 기법으로 자리 잡고 있으며, 특히 투명성과 공정성을 요구하는 분야에서 필수적인 도구입니다. 앞으로도 계산 효율성 개선과 고차원 데이터 해석 기능이 지속적으로 발전할 것으로 기대됩니다.
댓글 없음:
댓글 쓰기