📌 강화학습에서 시간차 학습(Time Difference Learning)이란?
강화학습에서 시간차 학습(TD Learning)은 미래 보상을 예측하며 학습하는 방법입니다. 즉, 에이전트가 행동할 때 즉시 보상만 보는 것이 아니라, 미래에 받을 보상까지 고려하여 학습합니다.
💡 쉽게 이해하기 위한 예제
✔ 축구 경기에서 선수의 움직임
- 선수가 골을 넣으면 즉시 보상을 받습니다. (예: 팀이 이기면 기쁨)
- 하지만, 골을 넣기 위한 패스나 드리블은 바로 보상을 주지 않지만, 올바른 선택이었다면 나중에 골을 넣는 데 도움이 됩니다.
- 즉, 현재 행동이 미래의 보상과 연결되어 있습니다.
⏳ 시간차 학습의 핵심 개념
- 현재 상태의 가치를 미래 보상을 예측하며 업데이트
- 즉시 보상이 아니라, 미래까지 고려하여 학습
- 기존의 예측값과 새로운 정보(실제 보상)를 비교하며 개선
🔥 시간차 학습의 대표적인 알고리즘
1. TD(0) 학습
- 현재 가치(V)를 업데이트할 때, 다음 상태의 가치(V')를 이용하는 방식
- 한 단계만 미래를 반영하여 학습
- 예제: "축구 경기에서 한 단계씩 앞으로 예상하면서 학습"
2. SARSA (온폴리시 TD 학습)
- 현재 정책을 그대로 사용하면서 학습
- 현재 상태 → 행동 → 다음 상태 → 다음 행동을 기반으로 업데이트
- 예제: "현재 플레이 스타일을 유지하면서 조금씩 개선"
3. Q-learning (오프폴리시 TD 학습)
- 최적의 행동을 찾기 위해 다른 행동도 탐색하며 학습
- 현재 행동과 관계없이 최대 보상을 주는 행동을 업데이트
- 예제: "다른 선수들의 플레이를 보고 더 좋은 전략을 배움"
📝 정리
- ✔ 시간차 학습(Time Difference Learning)은 현재 행동이 미래에 미치는 영향을 고려하여 학습하는 기법
- ✔ 즉시 보상만 보는 것이 아니라, 미래까지 예측하며 업데이트
- ✔ 대표적인 알고리즘: TD(0), SARSA, Q-learning
- ✔ 축구 경기, 체스, 게임 AI 등 장기적인 전략이 중요한 문제에서 활용