🤖 PPO 전체 흐름 (중학생도 이해 가능)
🎯 전체 흐름 한눈에 보기
행동 → 결과 확인 → 평가 → 조금 수정 → 반복
1️⃣ 행동하기
AI가 현재 기준으로 행동합니다.
예: 점프 / 가만히 있기
π(a) = 행동을 할 확률
2️⃣ 결과 수집
행동 후 결과를 얻습니다.
- 점프 → +10점
- 가만히 → 0점
3️⃣ 평가 (Advantage)
A (Advantage) = 행동이 얼마나 좋았는지
- 점프 → 좋음 (+)
- 가만히 → 나쁨 (0 또는 -)
4️⃣ 정책 업데이트 (핵심)
확률을 바꾸되 조금만 변경합니다.
변화 비율:
r(θ) = πθ(a) / πold(a)
클리핑 적용:
L(θ) = min( r(θ) × A , clip(r(θ), 1-ε, 1+ε) × A )
👉 너무 많이 바꾸면 자동으로 제한됨
5️⃣ 반복
이 과정을 계속 반복합니다.
- 좋은 행동은 증가
- 나쁜 행동은 감소
🚗 비유
운전할 때 핸들을 조금씩 조정하는 것과 같습니다.
🔥 핵심 요약
PPO = 경험 → 평가 → 조금 수정 → 반복