Time Difference 학습이란?
강화학습에서 Time Difference(TD) 학습은 미래의 보상을 예측하면서 현재 가치와 비교하여 학습하는 방법입니다. 몬테카를로 방법과 차별화되는 TD 학습의 핵심 개념과 알고리즘을 살펴보겠습니다.
1. Time Difference 학습 개념
TD 학습은 다음과 같은 업데이트 공식을 사용합니다.
V(s) ← V(s) + α [r + γ V(s') - V(s)]
2. TD 학습 vs Monte Carlo 학습
항목 | Time Difference (TD) 학습 | Monte Carlo 학습 |
---|---|---|
업데이트 시점 | 매 단계마다 업데이트 | 에피소드 종료 후 업데이트 |
수렴 속도 | 빠름 | 느림 |
샘플 효율성 | 적은 데이터로 학습 가능 | 많은 데이터 필요 |
3. TD 학습 기반 알고리즘
1) TD(0) 학습
한 단계 이후의 가치로 업데이트하는 기본적인 TD 학습 방법입니다.
2) SARSA 알고리즘
온-정책 학습 방식으로, 다음 상태에서 선택할 행동까지 고려하여 학습합니다.
Q(s, a) ← Q(s, a) + α [r + γ Q(s', a') - Q(s, a)]
3) Q-learning 알고리즘
오프-정책 학습 방식으로, 최적의 행동을 가정하고 학습합니다.
Q(s, a) ← Q(s, a) + α [r + γ max(Q(s', a')) - Q(s, a)]
4. 결론
Time Difference 학습은 강화학습에서 필수적인 요소로, 즉각적인 피드백 반영이 가능하여 다양한 AI 응용 분야에서 활용됩니다.