🤖 강화학습의 주요 종류
강화학습은 하나의 방식이 아니라, 목적과 환경에 따라 여러 종류로 나뉩니다. 아래는 핵심 구조 기준으로 정리한 주요 유형입니다.
1️⃣ 가치 기반 (Value-Based RL)
👉 “이 행동이 얼마나 좋은가?”를 평가
- 대표 알고리즘: Q-Learning, DQN
- 상태-행동의 가치를 계산
- 가장 높은 가치를 선택
장점: 구조 단순, 이해 쉬움
단점: 연속 행동 제어에 약함
2️⃣ 정책 기반 (Policy-Based RL)
👉 “어떤 행동을 할지 직접 결정”
- 대표 알고리즘: REINFORCE, Policy Gradient
- 확률적으로 행동 선택
- 연속 제어에 강함
장점: 로봇, 자율주행에 적합
단점: 학습 불안정
3️⃣ Actor-Critic 방식
👉 가치 + 정책을 함께 사용 (핵심 구조)
- 대표 알고리즘: A2C, A3C, PPO, DDPG, SAC
- Actor: 행동 결정
- Critic: 행동 평가
장점: 안정성과 성능 균형, 산업 활용도 높음
4️⃣ 모델 기반 강화학습 (Model-Based RL)
👉 “환경을 예측해서 학습”
- 환경 모델 생성
- 미래 상황 시뮬레이션 가능
장점: 데이터 효율 높음, 학습 빠름
단점: 모델 정확도 중요
5️⃣ 모델 프리 강화학습 (Model-Free RL)
👉 “직접 경험으로 학습”
- 환경 모델 없이 학습
- 시행착오 기반
장점: 구현 쉬움, 적용 범위 넓음
단점: 데이터 많이 필요
6️⃣ 오프라인 강화학습 (Offline RL)
👉 “이미 있는 데이터로 학습”
- 기존 데이터 활용
- 위험 환경에서 유리
장점: 안전성 높음
단점: 데이터 품질 의존
7️⃣ 멀티에이전트 강화학습 (MARL)
👉 “여러 에이전트가 함께 학습”
- 협력 또는 경쟁 구조
- 복잡한 시스템 모델링
활용: 로봇 협업, 게임 AI
🌟 한눈에 정리
- 핵심 구조: 가치 기반 / 정책 기반 / Actor-Critic
- 적용 기준: Model-Based vs Model-Free / Online vs Offline
👍 한 줄 핵심
“강화학습은 ‘가치’, ‘정책’, ‘혼합(Actor-Critic)’ 구조로 이해하면 가장 쉽다”
👉 추가로 궁금하다면
- 휴머노이드 RL 알고리즘 TOP5
- PPO vs SAC vs DDPG 비교