모방학습(Imitation Learning) 핵심 기술 요약
모방학습은 에이전트가 환경과의 시행착오를 거치기 전, 전문가의 시연 데이터를 통해 최적의 정책($\pi$)을 빠르게 학습하는 기법입니다.
1. 주요 알고리즘 분류
행동 복제 (BC)
상태($s$)와 행동($a$)의 쌍을 직접 매핑하는 지도학습 방식입니다.
- 특징: 구현이 가장 단순하며 보상 함수가 필요 없음.
- 단점: 에러가 누적되면 궤적을 이탈하는 공급 편향(Covariate Shift) 문제 발생.
- 해결책: DAgger(데이터 집계)를 통해 전문가가 새로운 상태에 대해 실시간 피드백 제공.
역강화학습 (IRL)
전문가의 행동 궤적을 분석하여 그 바탕이 되는 보상 함수(Reward Function)를 찾아냅니다.
- 특징: 결과물로 얻은 보상 함수를 사용하여 일반 강화학습으로 최적화 가능.
- 알고리즘: MaxEnt IRL, Apprenticeship Learning 등.
- 장점: 환경 변화에 강인함(Robustness).
생성적 적대 모방학습 (GAIL)
GAN의 구조를 활용하여 판별자(Discriminator)를 속이는 방향으로 정책을 학습합니다.
- 구조: 전문가 데이터와 에이전트 생성 데이터의 분포 차이를 최소화.
- 장점: 보상 함수를 정의하기 어려운 고차원 동작(로보틱스 등)에 매우 효과적임.
2. 기술별 비교 테이블
| 구분 | 행동 복제 (BC) | 역강화학습 (IRL) | 적대적 모방 (GAIL) |
|---|---|---|---|
| 학습 방식 | 지도학습 (Direct) | 보상 함수 추론 | GAN 기반 분포 매칭 |
| 데이터 효율 | 높음 | 낮음 (반복 최적화 필요) | 중간 |
| 일반화 성능 | 낮음 (Overfitting 위험) | 높음 | 매우 높음 |
| 주요 용도 | 단순 제어, 사전 학습 | 인간 심리/의도 분석 | 복잡한 로봇 제어 |
3. 구현 시 핵심 고려사항
- 상태 추상화: 시각 정보(Pixel)를 바로 쓰기보다 VAE 등을 활용해 저차원 특징을 먼저 추출할 것.
- 다중 모드(Multimodality): 전문가의 다양한 선택지를 반영하기 위해 확률 모델(Diffusion, GMM) 도입 고려.
- 데이터 품질: 전문가 데이터의 노이즈는 에이전트의 치명적인 결함으로 이어짐.