벨만 방정식(Bellman Equation)이란?
강화학습의 핵심 개념인 벨만 방정식은 현재 상태의 가치와 다음 상태의 가치 사이의 관계를 정의하는 방정식입니다. 초보자도 이해할 수 있도록 두 가지 주요 유형(기대 방정식/최적 방정식)과 기본 원리를 설명드립니다.
1. 벨만 기대 방정식(Bellman Expectation Equation)
- 현재 가치 = 즉시 받는 보상 + 할인된 미래 가치의 구조
- 수식:
v(s) = Σ [π(a|s) * Σ P(s'|s,a)(R(s,a,s') + γv(s'))]
- π(a|s): 정책(특정 상태에서 행동 선택 확률)
- P(s'|s,a): 상태 전이 확률
- γ: 할인 계수(0~1 범위)
- 재귀적 계산 방식으로 현재 가치 업데이트
2. 벨만 최적 방정식(Bellman Optimality Equation)
- 최적 정책 하에서의 가치 함수 계산
- 수식:
v*(s) = maxa Σ P(s'|s,a)[R(s,a,s') + γv*(s')]
- 모든 가능한 행동 중 최대 기대값 선택
3. 주요 특징
특징 | 설명 |
재귀적 관계 | 현재와 미래 상태의 가치를 연결하는 방정식 |
동적 계획법 | 최적화 문제 해결에 사용되는 기법 |
두 가지 형태 | 정책 평가용 기대 방정식 vs 최적 정책 탐색용 최적 방정식 |
4. 실용적 이해
- 마르코프 결정 과정(MDP)의 수학적 표현
- 에이전트의 의사결정 과정을 방정식으로 모델링
- γ(감마) 값 조정을 통해 미래 보상 중요도 조절