강화학습(Reinforcement Learning) 총정리
강화학습은 에이전트가 환경과 상호작용하며 보상(Reward)을 최대화하기 위해 스스로 학습하는 머신러닝의 한 분야입니다.
1. 강화학습의 5대 핵심 요소
- 에이전트 (Agent): 학습의 주체 (예: 자율주행차)
- 환경 (Environment): 에이전트가 놓인 상황 (예: 도로)
- 상태 (State, S): 현재 처한 상황의 정보
- 행동 (Action, A): 에이전트가 취하는 움직임
- 보상 (Reward, R): 행동에 대한 피드백
2. Actor-Critic (AC) 모델의 이해
Actor-Critic은 '배우(Actor)'와 '비평가(Critic)'가 팀을 이루어 학습하는 구조입니다.
- Actor (배우): 정책을 결정 (무슨 행동을 할까?)
- Critic (비평가): 가치를 평가 (그 행동이 얼마나 좋았나?)
3. 주요 AC 계열 모델 설명
① A2C (Advantage Actor-Critic)
핵심: "평소보다 얼마나 더 잘했나?"를 따지는 Advantage 개념 도입
💡 비유: 내 평균 점수보다 높게 받았을 때 더 많이 칭찬받는 방식
② A3C (Asynchronous Advantage Actor-Critic)
핵심: 여러 에이전트를 동시에 가동하는 비동기 병렬 학습
💡 비유: 10명의 분신이 각자 공부하고 비법을 본체에 전수하는 방식
③ PPO (Proximal Policy Optimization)
핵심: 급격한 변화를 방지하는 Clipping 장치 (안정성 최강)
💡 비유: 사고가 나지 않게 핸들을 조금씩 부드럽게 꺾으며 운전하는 방식
④ SAC (Soft Actor-Critic)
핵심: 다양성을 중시하는 엔트로피(Entropy) 최대화
💡 비유: 아는 맛집만 가는 게 아니라 새로운 식당도 탐색하며 최적을 찾는 방식
4. 모델 요약 비교
| 모델명 | 주요 특징 | 한 줄 요약 |
|---|---|---|
| A2C | Advantage 활용 | 기본적인 비평 시스템 |
| A3C | 비동기 병렬 학습 | 속도가 매우 빠름 |
| PPO | 변화폭 제한 (Clip) | 가장 대중적이고 안정적 |
| SAC | 엔트로피 최대화 | 탐험과 성능의 조화 |