Tech & Traditions: 정책기반학습

2025년 3월 3일 월요일

가치기반 학습 vs. 정책기반 학습: 가장 중요한 요소

가치기반 학습 (Value-based Learning)

가치기반 학습은 에이전트가 주어진 상태에서 취할 수 있는 행동들의 가치를 평가하는 것을 중심으로 합니다. 여기서 "가치"란 특정 상태에서 특정 행동을 취했을 때 기대할 수 있는 장기적인 보상의 크기를 의미합니다.

가치기반 학습에서 가장 중요한 개념은 가치 함수입니다. 가치 함수는 두 가지 유형으로 나뉩니다:

가치기반 학습에서는 Q값(행동 가치 함수)을 학습하는 방식이 일반적이며, 대표적인 알고리즘으로는 다음과 같은 방법이 있습니다.

장점: 최적의 정책을 추론할 수 있으며, 탐색과 활용의 균형을 조절할 수 있는 ε-greedy 전략을 적용 가능

단점: 연속적인 행동 공간에서는 Q값을 모두 저장하기 어렵고, 높은 차원의 상태 공간에서는 학습 속도가 느려질 수 있음

정책기반 학습은 에이전트가 최적의 정책(π)을 직접 학습하는 방식입니다. 즉, 상태 s가 주어졌을 때, 어떤 행동 a를 취할 확률을 결정하는 함수인 정책 π(a|s)를 학습하는 것이 목표입니다.

정책기반 학습에서는 정책 함수(Policy Function)가 핵심입니다. 정책은 두 가지 방식으로 표현될 수 있습니다:

정책기반 학습에서 사용되는 대표적인 알고리즘은 다음과 같습니다.

장점: 연속적인 행동 공간에서도 적용이 가능하며, 탐색 전략이 내재되어 있어 학습이 빠름

단점: 정책이 직접 최적화되므로 학습이 불안정할 수 있으며, 수렴 속도가 느릴 수 있음

가치기반 학습과 정책기반 학습은 각각의 장단점이 있으며, 사용 환경에 따라 적절한 방식을 선택해야 합니다.

최근 강화학습에서는 가치기반 학습과 정책기반 학습을 결합한 Actor-Critic 방법이 널리 사용되며, 이를 통해 두 가지 방식의 장점을 동시에 활용할 수 있습니다.