■ 앙상블
- 여러개의 결정트리를 결합하여 하나의 결정트리보다 더 좋은 성능을 내는 머신러닝 기법을 말한다.
- 여러개의 약분류기를 결합 -> 강분류기를 만듦
■ 앙상블 학습법
- Bagging과 Boosting 2가지가 있다.
■ 배깅
1. 배깅이란?
- 부트스트랩 집계(Bootstrap Aggregation)의 약자이다.
- 훈련 데이터로부터 여러 무작위 인스턴스 샘플을 생성하고
각 샘플에 의사결정 트리 모델을 만든 다음
각 결정 트리의 예측 결과를 평균화하여
각 인스턴스의 출력을 예측하는 방법임
2. 방법
1) 샘플을 여러번 뽑음(Bootstrap)
2) 각 모델을 학습
- 병렬로 학습
3) 결과물을 집계(Aggregation)
- 이산형 : 투표방식(Voting)으로 결과를 집계함
- 연속형 : 평균(Mean)으로 결과를 집계함
3. 장점
- 샘플의 무작위화(randomization)와 여러 트리의 결과를 평균화하는 배깅(ensemble method)을 통해
단일 의사결정 트리에서 발생하는 과대 적합을 해결할 수 있음
■ 부스팅
1. 부스팅이란?
- 가중치를 활용하여 약분류기를 강분류기로 만드는 방법
- 배깅과의 다른점은? 순차적으로 여러번 샘플링을 뽑아 AI가 이전 트리에서 배운 것을 사용하여 후속 트리의 결과를 개선하는데 사용하는 방법
- 모든 트리기반 방법 중에서 그래디언트 부스팅 머신(gradient boosting machine)은 최고의 성능을 내는 알고리즘임
2. 방법
1) 샘플을 여러번 뽑음
2) 각 모델을 학습
- 순차적으로 학습
3) 잘못분류/예측된 데이터에 가중치를 부여후 재학습
- 학습이 끝난후 결과에 따라 가중치를 부여함
(오답에 대해서는 높은 가중치를 부여하여 훈련데이터로 선택될 확률을 높임,
정답에 대해서는 낮은 가중치를 부여하여 훈련데이터로 선택될 확률을 낮춤)
- 가중치에 따라 다음 모델의 결과에 영향을 줌
(다음 차수의 학습에서는 오답에 대한 학습에 중점을 두고 실행하여 최종 예측 정확도의 신뢰도를 높임)
댓글 없음:
댓글 쓰기