강화학습에서 확률과 기대값
강화 학습에서 확률과 기대값은 매우 중요한 개념입니다. 이 두 개념을 이해하는 것이 강화 학습의 핵심을 이해하는 데 도움이 됩니다.
1. 확률 (Probability)란?
확률은 어떤 일이 일어날 가능성을 나타내는 값입니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 50%이고, 뒷면이 나올 확률도 50%입니다. 확률 값은 항상 0에서 1 사이의 값으로 나타내며, 0은 "절대 일어나지 않음", 1은 "반드시 일어남"을 의미합니다.
강화학습에서의 확률
강화 학습에서는 에이전트가 환경에서 행동을 할 때, 그 행동이 어떤 결과를 가져올지 알 수 없기 때문에 확률적인 사고가 필요합니다. 예를 들어, 에이전트가 상태에서 행동을 선택할 때, 확률적으로 행동을 선택하거나 상태가 변화할 수 있습니다.
- 정책(Policy): 강화 학습에서 정책은 에이전트가 어떤 상태에서 어떤 행동을 할 확률을 정의하는 함수입니다.
- 상태 전이 확률: 에이전트가 어떤 상태에서 행동을 했을 때, 그 행동으로 인해 다음 상태로 이동할 확률입니다.
2. 기대값 (Expected Value)란?
기대값은 어떤 사건이 일어날 때 평균적으로 기대할 수 있는 값을 뜻합니다. 확률적인 결과들에 대해 평균을 계산하는 것이라고 할 수 있습니다.
기대값의 공식
기대값을 계산하는 공식은 다음과 같습니다:
\(E[X] = \sum_{i} P(x_i) \cdot x_i\)
여기서 \(x_i\)는 가능한 결과들, \(P(x_i)\)는 각 결과가 일어날 확률입니다.
강화학습에서의 기대값
강화 학습에서는 어떤 행동을 했을 때 얻을 보상의 기대값을 계산하는 것이 중요합니다. 에이전트는 미래 보상까지 고려해서 최적의 행동을 선택해야 하기 때문입니다.
- 보상 기대값: 에이전트는 행동을 했을 때 받을 수 있는 즉각적인 보상과 미래의 보상까지 고려하여 그 행동이 얼마나 좋은지 평가합니다.
3. 강화학습에서 확률과 기대값이 중요한 이유
1) 확률의 중요성
- 행동 선택: 에이전트는 주어진 상태에서 확률적으로 어떤 행동을 선택할 수 있습니다. 예를 들어, 에이전트가 상태에서 행동을 선택할 확률이 0.7이라면, 70%의 확률로 행동을 취하게 됩니다.
- 환경의 반응: 환경은 에이전트의 행동에 대해 확률적으로 반응할 수 있습니다.
2) 기대값의 중요성
- 최적의 행동 선택: 에이전트는 어떤 행동이 가장 큰 보상을 가져올지 알지 못합니다. 그래서 각 행동의 기대 보상을 계산하고, 그 기대 보상이 가장 큰 행동을 선택해야 합니다.
- Q-학습: Q-학습에서는 행동 가치 함수 \(Q(s, a)\)를 사용하여 특정 상태에서 어떤 행동을 했을 때 얻을 수 있는 기대 보상을 계산합니다.
4. 예시로 이해하기
예시 1: 주사위 던지기
주사위를 던졌을 때, 각 면이 나올 확률은 1/6입니다. 만약 주사위에서 나온 숫자가 보상이라면, 그 보상의 기대값을 계산할 수 있습니다.
\(E[\text{주사위}] = \sum P(i) \cdot i = \frac{1}{6} \cdot (1 + 2 + 3 + 4 + 5 + 6) = \frac{1}{6} \cdot 21 = 3.5\)
따라서, 주사위 던지기의 기대값은 3.5입니다. 즉, 주사위를 여러 번 던지면 평균적으로 3.5 정도의 보상을 받을 수 있다는 의미입니다.
예시 2: 강화학습에서 행동 선택
강화 학습에서, 에이전트가 상태에서 두 가지 행동을 선택할 수 있다고 가정해 봅시다. 각 행동에 대해 얻을 수 있는 보상의 기대값을 계산해보겠습니다.
- 행동 A1: 기대 보상 5
- 행동 A2: 기대 보상 8
에이전트는 더 큰 보상을 기대할 수 있는 행동 A2를 선택할 것입니다.
정리
- 확률: 강화 학습에서 에이전트는 각 행동을 선택할 확률을 계산하고, 그에 따른 결과가 확률적으로 결정됩니다.
- 기대값: 각 행동의 결과에 대한 평균적인 보상을 계산하여, 에이전트가 최적의 행동을 선택할 수 있도록 도와줍니다.
- 강화 학습에서의 활용: 행동 선택의 확률적 결정, 기대 보상 계산을 통한 최적의 행동 선택
이 두 개념을 잘 이해하면 강화 학습에서 최적의 정책을 찾는 데 큰 도움이 됩니다!