🎭 액터-크리틱(Actor-Critic) 강화학습 원리
연기자와 비평가가 함께 성장하는 지능형 학습 구조
액터-크리틱은 단순히 결과에 따른 보상만 받는 것이 아니라, 내부에 비평가를 두어 행동의 이유를 분석하고 더 빠르게 발전하는 방식입니다.
1. 두 역할의 핵심 임무
🎭 액터 (Actor: 연기자)
- 역할: 현재 상태에서 행동을 결정하는 정책(Policy)
- 목표: 비평가의 조언을 반영하여 보상을 극대화하는 행동 선택
- 비유: 비평가의 피드백에 따라 연기 톤을 수정하는 배우
🧐 크리틱 (Critic: 비평가)
- 역할: 행동의 가치를 평가하는 가치 함수(Value Function)
- 목표: 보상을 바탕으로 해당 상태의 가치를 정확히 예측
- 비유: 공연의 미래 흥행 가치를 예측하고 점수를 매기는 평론가
2. 학습 프로세스 (피드백 루프)
- 행동 수행: 액터가 현재 상태($s$)에서 행동($a$)을 취함
- 보상 확인: 환경으로부터 실제 보상($r$)을 받고 상태($s'$)로 이동
- 비평가의 평가: 예상보다 좋았는지(TD 에러)를 계산
"이번 연기는 내 예상보다 훨씬 훌륭했어! (+)"
"음, 이번 건 내 예상보다 기대 이하인걸? (-)" - 동시 업데이트: 액터는 칭찬받은 행동 확률을 높이고, 크리틱은 안목을 고도화함
3. 액터-크리틱의 주요 장점
✅ 변동성 감소
매 순간 비평가의 가이드가 있어 학습이 안정적임
매 순간 비평가의 가이드가 있어 학습이 안정적임
✅ 연속적 행동
로봇 제어 같은 미세한 움직임 학습에 유리함
로봇 제어 같은 미세한 움직임 학습에 유리함
✅ 높은 효율성
즉각적인 피드백으로 정답 수렴 속도가 빠름
즉각적인 피드백으로 정답 수렴 속도가 빠름
액터는 칭찬받기 위해 행동을 교정하고,
크리틱은 더 냉철한 평가를 위해 안목을 학습합니다.
크리틱은 더 냉철한 평가를 위해 안목을 학습합니다.
댓글 없음:
댓글 쓰기