강화학습 3대장 (AC, PPO, SAC) 가이드
복잡한 알고리즘을 쉬운 비유로 이해하기
1. AC (Actor-Critic)
모든 현대 강화학습의 기초가 되는 구조입니다[span_2](start_span)[span_2](end_span).
Actor (선수): 현재 상황에서 어떤 행동을 할지 결정합니다[span_3](start_span)[span_3](end_span).
Critic (감독): 선수의 행동을 보고 점수를 매겨 평가합니다[span_4](start_span)[span_4](end_span).
Critic (감독): 선수의 행동을 보고 점수를 매겨 평가합니다[span_4](start_span)[span_4](end_span).
비유: 선수는 경기를 뛰고, 감독은 그 옆에서 피드백을 주며 함께 성장하는 콤비입니다[span_5](start_span)[span_5](end_span)[span_6](start_span)[span_6](end_span).
2. PPO (Proximal Policy Optimization)
학습이 너무 급격하게 변해서 망가지는 것을 막아주는 안정적인 방식입니다[span_7](start_span)[span_7](end_span)[span_8](start_span)[span_8](end_span).
핵심: 새로운 행동 방식이 이전 방식과 너무 많이 차이나지 않도록 제한(Clipping)을 겁니다[span_9](start_span)[span_9](end_span)[span_10](start_span)[span_10](end_span).
비유: 자전거를 배울 때 핸들을 갑자기 확 꺾지 않고 조금씩 수정하며 균형을 잡는 것과 같습니다[span_11](start_span)[span_11](end_span)[span_12](start_span)[span_12](end_span).
3. SAC (Soft Actor-Critic)
창의적이고 다양한 시도를 할수록 보상을 주는 효율적인 알고리즘입니다[span_13](start_span)[span_13](end_span)[span_14](start_span)[span_14](end_span).
핵심: 엔트로피(다양성)를 높여서 똑같은 행동만 반복하지 않고 골고루 시도하게 만듭니다[span_15](start_span)[span_15](end_span)[span_16](start_span)[span_16](end_span).
비유: 늘 가던 식당만 가는 게 아니라, 새로운 맛집을 찾아 골목 구석구석을 누비는 미식가 스타일입니다[span_17](start_span)[span_17](end_span)[span_18](start_span)[span_18](end_span).
📊 알고리즘 한눈에 비교
| 구분 | AC | PPO | SAC |
|---|---|---|---|
| 핵심 가치 | 역할 분담[span_19](start_span)[span_19](end_span)[span_20](start_span)[span_20](end_span) | 안정성[span_21](start_span)[span_21](end_span)[span_22](start_span)[span_22](end_span) | 탐험과 창의성[span_23](start_span)[span_23](end_span)[span_24](start_span)[span_24](end_span) |
| 비유 | 선수와 감독[span_25](start_span)[span_25](end_span)[span_26](start_span)[span_26](end_span) | 자전거 배우기[span_27](start_span)[span_27](end_span)[span_28](start_span)[span_28](end_span) | 골목 미식가[span_29](start_span)[span_29](end_span)[span_30](start_span)[span_30](end_span) |
댓글 없음:
댓글 쓰기