강화학습(RL) 종류
환경과 상호작용하며 보상을 최대화하기 위한 학습 방법의 분류와 특징
1. 모델 기반(Model-based) vs 모델 프리(Model-free)
- 모델 기반 RL: 환경 모델(State→Action→Next State)을 학습하여 정책 결정. 샘플 효율이 높음. 대표: Dyna-Q, MuZero
- 모델 프리 RL: 환경 모델 없이 가치 함수나 정책을 직접 학습. 샘플 효율 낮음. 대표: Q-Learning, SARSA, DQN, PPO, A3C
2. 정책 학습 방식에 따른 분류
| 종류 | 대표 알고리즘 | 특징 |
|---|---|---|
| 가치 기반(Value-based) | Q-Learning, DQN | 각 상태에서 행동 가치(Q(s,a))를 계산하고 argmax로 행동 선택 |
| 정책 기반(Policy-based) | REINFORCE, PPO, TRPO | 정책 함수 π(a|s)를 직접 학습, 확률적 행동 가능, 연속 행동 공간에 유리 |
| 액터-크리틱(Actor-Critic) | A3C, DDPG, SAC, TD3 | 정책(Actor)과 가치(Critic)를 동시에 학습, 안정성과 효율성 결합 |
3. 환경 상호작용 특성
- 온-폴리시(On-policy): 학습 중인 정책 그대로 행동 수행. 대표: SARSA, PPO, TRPO
- 오프-폴리시(Off-policy): 과거 데이터를 사용하여 다른 정책 학습 가능. 대표: Q-Learning, DQN, DDPG, SAC
4. 행동 공간 특성
- 이산 행동 공간(Discrete): 행동 수가 제한된 경우. 예: 게임(Atari), 체스, 바둑
- 연속 행동 공간(Continuous): 행동이 연속값을 가짐. 예: 로봇 제어, 드론 조작. 대표 알고리즘: DDPG, TD3, SAC
5. 기타 세부 분류
- Hierarchical RL: 고수준 목표와 저수준 행동 계층 구조 학습. 대표: Option-Critic, FeUdal Networks
- Multi-agent RL (MARL): 여러 에이전트 상호작용 학습. 대표: MADDPG, QMIX
- Inverse RL / Imitation Learning: 전문가 행동 관찰 → 정책/보상 함수 추정. 대표: GAIL