강화학습 & Actor-Critic 알고리즘
기초 개념부터 최신 SAC 모델까지 한눈에 살펴보기
1. 강화학습(RL)의 핵심 개념
에이전트가 환경과 상호작용하며 시행착오를 통해 누적 보상을 최대화하는 학습 방식입니다.
에이전트 (Agent)
환경 (Environment)
상태 (State)
행동 (Action)
보상 (Reward)
2. Actor-Critic (AC) 모델 구조
두 개의 네트워크가 협력하여 학습 효율을 극대화합니다.
- Actor (배우): 상태를 보고 어떤 행동을 할지 결정 (Policy)
- Critic (비평가): 행동의 결과를 평가하여 점수를 매김 (Value)
| 모델 | 핵심 특징 | 한 줄 요약 |
|---|---|---|
| A2C | Advantage 개념 | "기대보다 얼마나 더 잘했나?" |
| A3C | 비동기 병렬 학습 | "여러 명이 따로 배워서 합체" |
| PPO | Clipping (제한) | "갑격한 변화 방지, 안정적 학습" |
| SAC | 최대 엔트로피 | "성능과 다양성의 조화" |
3. 집중 탐구: SAC (Soft Actor-Critic)
철학: "똑똑하고 호기심 많은 탐험가"
SAC는 단순히 점수(보상)만 쫓지 않고, 행동의 다양성(Entropy)을 높이는 것에 가치를 둡니다.
Objective = Reward + α × Entropy
왜 SAC를 사용하는가?
- 지역 최적점 탈출: 한 가지 정답에 매몰되지 않고 다양한 시도를 하여 더 좋은 해답을 찾습니다.
- 높은 데이터 효율: Off-policy 방식을 사용하여 과거의 경험을 알뜰하게 재사용합니다.
- 연속적 제어 탁월: 로봇 팔이나 차량 제어처럼 세밀한 동작이 필요한 환경에 최적화되어 있습니다.
💡 비유하기
일반 알고리즘이 "늘 가던 맛집만 가는 사람"이라면, SAC는 "맛집도 가지만 가끔은 새로운 식당도 도전해 보며 인생의 즐거움을 극대화하는 미식가"와 같습니다.
일반 알고리즘이 "늘 가던 맛집만 가는 사람"이라면, SAC는 "맛집도 가지만 가끔은 새로운 식당도 도전해 보며 인생의 즐거움을 극대화하는 미식가"와 같습니다.
댓글 없음:
댓글 쓰기