완벽한 이상탐지 모델의 성능에 대해서 알아보겠습니다.
우리는 보통 분류모델의 성능을 측정하기 위해서 Confusion Matrix를 사용합니다.
그럼 Confusion Matrix에 대해서 알아보도록 하겠습니다.
Confusion Matrix의 형태는 다음과 같습니다.
1) Recall, True Positive Ratr(TPR)
- TP / (TP+FN) : 비정상 예측 / 실제 비정상
- 이 값이 클수록 좋습니다.
2) Fall-Out, False Positive Rate(FPR)
- FP / (FP+TN) : 비정상 예측 / 실제 정상
- 이 값은 작을수록 좋습니다.
3) Precision
- TP / (TP + FP) : 실제 비정상 / 비정상 예측
- 값이 클수록 좋습니다.
이러한 관계에서 완벽한 이상탐지 모델의 성능은 어떻게 정의할 수 있을까요?
아래와 같이 3가지를 만족한다면 완벽한 이상탐지 모델이 아닐까 합니다.
1) TPR(Recall) = 1
2) FPR = 0
3) Precision = 1
좋은 성능을 확보하려면?
특징변환을 통하여 비선형 변환을 하고 결과적으로 데이터 분포를 이상점수 분포로 만들어놓고 정상/비정상 분포에 대한 평균과 분산을 줄인다.