2026년 4월 28일 화요일

액터-크리틱(Actor-Critic)

액터-크리틱(Actor-Critic) 강화학습 원리

🎭 액터-크리틱(Actor-Critic) 강화학습 원리

연기자와 비평가가 함께 성장하는 지능형 학습 구조

액터-크리틱은 단순히 결과에 따른 보상만 받는 것이 아니라, 내부에 비평가를 두어 행동의 이유를 분석하고 더 빠르게 발전하는 방식입니다.

1. 두 역할의 핵심 임무

🎭 액터 (Actor: 연기자)

역할: 현재 상태에서 행동을 결정하는 정책(Policy)
목표: 비평가의 조언을 반영하여 보상을 극대화하는 행동 선택
비유: 비평가의 피드백에 따라 연기 톤을 수정하는 배우

🧐 크리틱 (Critic: 비평가)

역할: 행동의 가치를 평가하는 가치 함수(Value Function)
목표: 보상을 바탕으로 해당 상태의 가치를 정확히 예측
비유: 공연의 미래 흥행 가치를 예측하고 점수를 매기는 평론가

2. 학습 프로세스 (피드백 루프)

행동 수행: 액터가 현재 상태($s$)에서 행동($a$)을 취함
보상 확인: 환경으로부터 실제 보상($r$)을 받고 상태($s'$)로 이동
비평가의 평가: 예상보다 좋았는지(TD 에러)를 계산
"이번 연기는 내 예상보다 훨씬 훌륭했어! (+)"
"음, 이번 건 내 예상보다 기대 이하인걸? (-)"
동시 업데이트: 액터는 칭찬받은 행동 확률을 높이고, 크리틱은 안목을 고도화함

3. 액터-크리틱의 주요 장점

✅ 변동성 감소
매 순간 비평가의 가이드가 있어 학습이 안정적임

✅ 연속적 행동
로봇 제어 같은 미세한 움직임 학습에 유리함

✅ 높은 효율성
즉각적인 피드백으로 정답 수렴 속도가 빠름

액터는 칭찬받기 위해 행동을 교정하고,
크리틱은 더 냉철한 평가를 위해 안목을 학습합니다.

댓글 없음:

댓글 쓰기

피드 구독하기: 댓글 (Atom)