강화학습 & Actor-Critic 알고리즘
기초 개념부터 최신 SAC 모델까지 한눈에 살펴보기
1. 강화학습(RL)의 핵심 개념
에이전트가 환경과 상호작용하며 시행착오를 통해 누적 보상을 최대화하는 학습 방식입니다.
2. Actor-Critic (AC) 모델 구조
두 개의 네트워크가 협력하여 학습 효율을 극대화합니다.
- Actor (배우): 상태를 보고 어떤 행동을 할지 결정 (Policy)
- Critic (비평가): 행동의 결과를 평가하여 점수를 매김 (Value)
| 모델 | 핵심 특징 | 한 줄 요약 |
|---|---|---|
| A2C | Advantage 개념 | "기대보다 얼마나 더 잘했나?" |
| A3C | 비동기 병렬 학습 | "여러 명이 따로 배워서 합체" |
| PPO | Clipping (제한) | "갑격한 변화 방지, 안정적 학습" |
| SAC | 최대 엔트로피 | "성능과 다양성의 조화" |
3. 집중 탐구: SAC (Soft Actor-Critic)
철학: "똑똑하고 호기심 많은 탐험가"
SAC는 단순히 점수(보상)만 쫓지 않고, 행동의 다양성(Entropy)을 높이는 것에 가치를 둡니다.
왜 SAC를 사용하는가?
- 지역 최적점 탈출: 한 가지 정답에 매몰되지 않고 다양한 시도를 하여 더 좋은 해답을 찾습니다.
- 높은 데이터 효율: Off-policy 방식을 사용하여 과거의 경험을 알뜰하게 재사용합니다.
- 연속적 제어 탁월: 로봇 팔이나 차량 제어처럼 세밀한 동작이 필요한 환경에 최적화되어 있습니다.
일반 알고리즘이 "늘 가던 맛집만 가는 사람"이라면, SAC는 "맛집도 가지만 가끔은 새로운 식당도 도전해 보며 인생의 즐거움을 극대화하는 미식가"와 같습니다.