2026년 4월 28일 화요일

강화학습 및 Actor-Critic 모델 정리

강화학습 및 Actor-Critic 모델 정리

강화학습(Reinforcement Learning) 총정리

강화학습은 에이전트가 환경과 상호작용하며 보상(Reward)을 최대화하기 위해 스스로 학습하는 머신러닝의 한 분야입니다.

1. 강화학습의 5대 핵심 요소

에이전트 (Agent): 학습의 주체 (예: 자율주행차)
환경 (Environment): 에이전트가 놓인 상황 (예: 도로)
상태 (State, S): 현재 처한 상황의 정보
행동 (Action, A): 에이전트가 취하는 움직임
보상 (Reward, R): 행동에 대한 피드백

2. Actor-Critic (AC) 모델의 이해

Actor-Critic은 '배우(Actor)'와 '비평가(Critic)'가 팀을 이루어 학습하는 구조입니다.

Actor (배우): 정책을 결정 (무슨 행동을 할까?)
Critic (비평가): 가치를 평가 (그 행동이 얼마나 좋았나?)

3. 주요 AC 계열 모델 설명

① A2C (Advantage Actor-Critic)

핵심: "평소보다 얼마나 더 잘했나?"를 따지는 Advantage 개념 도입

💡 비유: 내 평균 점수보다 높게 받았을 때 더 많이 칭찬받는 방식

② A3C (Asynchronous Advantage Actor-Critic)

핵심: 여러 에이전트를 동시에 가동하는 비동기 병렬 학습

💡 비유: 10명의 분신이 각자 공부하고 비법을 본체에 전수하는 방식

③ PPO (Proximal Policy Optimization)

핵심: 급격한 변화를 방지하는 Clipping 장치 (안정성 최강)

💡 비유: 사고가 나지 않게 핸들을 조금씩 부드럽게 꺾으며 운전하는 방식

④ SAC (Soft Actor-Critic)

핵심: 다양성을 중시하는 엔트로피(Entropy) 최대화

💡 비유: 아는 맛집만 가는 게 아니라 새로운 식당도 탐색하며 최적을 찾는 방식

4. 모델 요약 비교

모델명	주요 특징	한 줄 요약
A2C	Advantage 활용	기본적인 비평 시스템
A3C	비동기 병렬 학습	속도가 매우 빠름
PPO	변화폭 제한 (Clip)	가장 대중적이고 안정적
SAC	엔트로피 최대화	탐험과 성능의 조화

피드 구독하기: 덧글 (Atom)