SAM(Sharpness-Aware Minimization)과 강화학습 성능 연계
1. SAM 개요
SAM은 딥러닝 모델이 flat minima에 수렴하도록 유도하여 일반화 성능을 향상시키는 최적화 기법입니다. 손실 함수 L(w)
에 대해 다음과 같은 형태로 정의됩니다:
minw max||ε|| ≤ ρ L(w + ε)
이 구조는 weight 주변의 최악의 손실을 고려하며, 결과적으로 모델이 sharp한 영역을 피하고 넓고 평평한 영역으로 수렴하도록 합니다.
2. 강화학습에서의 불안정성과 일반화 문제
- 정책 변경에 따라 상태-행동 분포가 계속 바뀜
- 리워드 희소성으로 손실 landscape가 sharp해지기 쉬움
- 작은 변화에 정책이 민감하게 반응
- 학습 불안정성, overfitting, 탐험 실패 등 문제가 빈번
3. SAM이 강화학습에 기여하는 방식
1) 정책의 일반화 향상
SAM은 환경 변화나 상태 다양성에 강한 정책을 학습하게 하여 더 넓은 범위에서 잘 작동하는 일반화된 정책을 유도합니다.
2) Value Function 학습 안정화
SAM을 critic loss에 적용하면 값 함수의 진동을 줄이고, 더 일관된 policy gradient를 제공합니다.
3) 탐험 효율성 향상
내재적으로 노이즈에 강한 정책이 형성되므로, 탐험 중에도 행동이 일관되어 학습이 빠르게 수렴할 수 있습니다.
4) Off-policy 강화학습의 Robustness 강화
예: SAC나 DDPG에서 Q-value overestimation 문제를 완화할 수 있으며, 샘플 효율성과 안정성 개선에 기여합니다.
4. 연구 및 실제 사례
- RS-SAM: adversarial SAM을 통해 정책의 robust 성능 향상
- SAM-PPO, SAM-A2C: 정책 gradient 기반 알고리즘과의 결합
- 멀티태스크 RL: SAM으로 공유 정책의 일반화 강화
5. 결론
SAM은 강화학습의 불안정성, 일반화 부족, 리워드 민감도 문제에 대응할 수 있는 효과적인 기법입니다. 특히 다음과 같은 측면에서 큰 장점이 있습니다:
- 정책과 value function의 안정적 학습
- 강건하고 일반화된 행동 정책
- 탐험-활용 균형 개선
- 환경 외란이나 변화에 대한 내성 강화
"SAM은 딥러닝 최적화의 진보를 강화학습에 효과적으로 이식할 수 있는 연결고리입니다."
댓글 없음:
댓글 쓰기