레이블이 강화학습인 게시물을 표시합니다. 모든 게시물 표시

2025년 4월 23일 수요일

강화학습: 몬테카를로 정책 평가

1. 정책 평가란?

강화학습에서 정책 평가는 현재의 정책(π)을 따랐을 때 각 상태의 기대 보상, 즉 V(s)를 추정하는 과정입니다.

2. 몬테카를로 방법이란?

에이전트가 정책을 따르며 환경을 여러 번 경험하고, 각 상태에서 얻는 총 보상의 평균을 가치로 추정합니다. 종료 상태가 있어야 사용 가능합니다.

3. 절차

정책 π를 고정하고 여러 에피소드를 생성
에피소드 내 상태에서의 총 보상 Gt를 계산
각 상태에 대해 Gt의 평균값을 V(s)로 설정

4. 간단한 구현 예제 (Python)

아래 예시는 4개의 상태를 가진 단순한 환경에서 정책 평가를 수행하는 코드입니다.


import random
from collections import defaultdict

# 단순한 1D 환경: S1 -> S2 -> S3 -> S4 -> 종료
states = ['S1', 'S2', 'S3', 'S4']
policy = lambda s: 'right'  # 항상 오른쪽으로 이동
num_episodes = 1000

def generate_episode():
    episode = []
    for state in states:
        reward = 1 if state == 'S4' else 0
        episode.append((state, reward))
    return episode

returns = defaultdict(list)
V = {}

# 몬테카를로 평가 시작
for _ in range(num_episodes):
    episode = generate_episode()
    G = 0
    visited_states = set()
    for t in reversed(range(len(episode))):
        state, reward = episode[t]
        G += reward
        if state not in visited_states:
            returns[state].append(G)
            visited_states.add(state)

# 평균값 계산
for state in states:
    V[state] = sum(returns[state]) / len(returns[state])

# 결과 출력
for state in states:
    print(f"V({state}) = {V[state]:.2f}")

5. 요약

몬테카를로 정책 평가는 모델 없이도 학습할 수 있는 샘플 기반 강화학습 기법입니다. 실제 환경과의 상호작용을 통해 상태 가치를 직접 평균적으로 추정하므로, 초기 학습이나 간단한 환경 실험에 매우 적합합니다.

2025년 3월 14일 금요일

강화학습 시간차 학습

강화학습: Time Difference 학습

강화학습에서 Time Difference(TD) 학습은 미래의 보상을 예측하면서 현재 상태의 가치와 비교하여 학습하는 방법입니다. 이는 마르코프 결정 과정(MDP)에서 가치 함수 $V(s)$를 업데이트하는 데 사용됩니다.

1. Time Difference 학습 개념

TD 학습은 현재 가치 함수와 한 단계 이후의 가치 함수 차이를 이용하여 업데이트합니다. 업데이트 공식은 다음과 같습니다.

V(s) ← V(s) + α [r + γ V(s') - V(s)]

여기서,

V(s): 현재 상태 $s$의 가치 함수
r: 현재 상태에서의 보상
γ: 할인율 (미래 보상을 현재 가치로 변환하는 계수)
V(s'): 다음 상태 $s'$의 가치 함수
α: 학습률

2. TD 학습 vs Monte Carlo 학습

TD 학습과 몬테카를로(Monte Carlo) 학습은 강화학습에서 가치 함수 학습에 사용되는 대표적인 방법입니다.

항목	Time Difference (TD) 학습	Monte Carlo 학습
업데이트 시점	매 단계마다 업데이트 (온라인 학습 가능)	에피소드 종료 후 업데이트 (오프라인 학습)
수렴 속도	빠름 (즉각적인 피드백 반영)	느림 (전체 에피소드 필요)
샘플 효율성	더 적은 경험으로 학습 가능	많은 데이터가 필요함

3. TD 학습 기반 알고리즘

1) TD(0) 학습

가장 기본적인 TD 학습 방법으로, 한 단계 이후의 가치 $ V(s') $를 사용하여 업데이트합니다.

2) SARSA 알고리즘

TD 학습을 활용한 온-정책(on-policy) 학습 방법으로, 다음 상태 $s'$에서 선택할 행동까지 고려하여 Q-값을 업데이트합니다.

Q(s, a) ← Q(s, a) + α [r + γ Q(s', a') - Q(s, a)]

3) Q-learning 알고리즘

TD 학습을 활용한 오프-정책(off-policy) 학습 방법으로, 다음 상태에서 최적의 행동을 가정하고 학습합니다.

Q(s, a) ← Q(s, a) + α [r + γ max(Q(s', a')) - Q(s, a)]

4. Time Difference 학습의 장점

빠른 업데이트: 한 단계 이후의 보상을 즉시 반영할 수 있어 빠르게 학습 가능
온라인 학습 가능: 실시간으로 업데이트할 수 있어 동적 환경에서 효과적
데이터 효율성: 에피소드가 끝나지 않아도 학습이 가능하여 샘플 효율성이 높음

5. 결론

Time Difference 학습은 강화학습에서 필수적인 요소로, 즉각적인 피드백 반영이 가능하여 다양한 AI 응용 분야에서 활용됩니다. 특히 SARSA와 Q-learning 같은 알고리즘에서 중요한 역할을 하며, 로봇 제어, 게임 AI, 추천 시스템 등에서 널리 사용됩니다.

Time Difference 학습이란? - 강화학습

Time Difference 학습이란?

강화학습에서 Time Difference(TD) 학습은 미래의 보상을 예측하면서 현재 가치와 비교하여 학습하는 방법입니다. 몬테카를로 방법과 차별화되는 TD 학습의 핵심 개념과 알고리즘을 살펴보겠습니다.

1. Time Difference 학습 개념

TD 학습은 다음과 같은 업데이트 공식을 사용합니다.

V(s) ← V(s) + α [r + γ V(s') - V(s)]

2. TD 학습 vs Monte Carlo 학습

항목	Time Difference (TD) 학습	Monte Carlo 학습
업데이트 시점	매 단계마다 업데이트	에피소드 종료 후 업데이트
수렴 속도	빠름	느림
샘플 효율성	적은 데이터로 학습 가능	많은 데이터 필요

3. TD 학습 기반 알고리즘

1) TD(0) 학습

한 단계 이후의 가치로 업데이트하는 기본적인 TD 학습 방법입니다.

2) SARSA 알고리즘

온-정책 학습 방식으로, 다음 상태에서 선택할 행동까지 고려하여 학습합니다.

Q(s, a) ← Q(s, a) + α [r + γ Q(s', a') - Q(s, a)]

3) Q-learning 알고리즘

오프-정책 학습 방식으로, 최적의 행동을 가정하고 학습합니다.

Q(s, a) ← Q(s, a) + α [r + γ max(Q(s', a')) - Q(s, a)]

4. 결론

Time Difference 학습은 강화학습에서 필수적인 요소로, 즉각적인 피드백 반영이 가능하여 다양한 AI 응용 분야에서 활용됩니다.

2025년 3월 13일 목요일

PPO-강화학습

PPO(정책 경사 최적화)란?

PPO(Proximal Policy Optimization)는 인공지능의 강화학습 분야에서 사용되는 알고리즘 중 하나입니다. 이 알고리즘은 에이전트가 환경과 상호작용하면서 최적의 정책을 학습하도록 돕는 역할을 합니다.

강화학습이란?

강화학습은 에이전트가 주어진 환경에서 보상을 최대화하는 방향으로 행동을 학습하는 방식입니다. 예를 들어, 게임을 할 때 에이전트는 점수를 얻을 수 있는 행동을 반복적으로 학습하게 됩니다.

PPO가 중요한 이유

PPO는 강화학습에서 **정책을 학습하는** 알고리즘입니다. 이 알고리즘의 주요 목적은 에이전트가 어떤 행동을 취할 때마다 그 행동에 대해 얻은 보상을 바탕으로, 점점 더 좋은 정책을 찾아내는 것입니다. PPO는 이전의 정책을 너무 크게 변경하지 않도록 하여, 안정적이고 효율적으로 학습할 수 있게 돕습니다.

PPO의 핵심 아이디어

정책 업데이트의 안정성: PPO는 정책을 업데이트할 때 너무 큰 변화를 주지 않도록 하여 학습이 안정적으로 이루어지도록 합니다.
효율적인 학습: PPO는 기존의 정책을 조금씩 개선하며, 주어진 데이터를 더 효율적으로 사용합니다.
단순성: PPO는 다른 복잡한 알고리즘에 비해 구현이 상대적으로 간단하고 직관적입니다.

PPO의 장점

안정적인 학습: PPO는 큰 정책 변화 없이 안정적인 학습이 가능합니다.
효율성: PPO는 큰 계산 비용 없이 빠르게 수렴하는 특징이 있습니다.
간단한 구현: PPO는 다른 강화학습 알고리즘에 비해 구현이 상대적으로 간단하여 실험과 연구에서 널리 사용됩니다.

결론

PPO는 강화학습 알고리즘 중 하나로, 안정적이고 효율적인 학습을 가능하게 하여 많은 분야에서 활용되고 있습니다. 이 알고리즘은 에이전트가 환경과 상호작용하면서 최적의 정책을 찾아가는 과정에서 매우 중요한 역할을 합니다.

위 내용을 통해 PPO의 기본 개념을 이해하시길 바랍니다. 더욱 자세한 내용은 강화학습에 대한 추가 연구를 통해 학습할 수 있습니다.

2025년 3월 9일 일요일

DQN(Deep Q-Network)과 Double DQN의 차이점

1. DQN(Deep Q-Network)이란?

DQN은 강화 학습의 Q-learning을 신경망을 사용하여 근사한 방식입니다.

DQN 업데이트 수식

$$ Y^{DQN}_t = r_t + \gamma \max_{a'} Q(s_{t+1}, a'; \theta^-) $$

여기서:

$\theta^-$ : 타겟 네트워크의 가중치
$Q(s_{t+1}, a'; \theta^-)$ : 다음 상태 $s_{t+1}$에서 각 행동 $a'$에 대한 Q-value
$\max_{a'} Q(s_{t+1}, a'; \theta^-)$ : 가장 큰 Q-value 선택

DQN의 문제점: Q-value의 과대평가

DQN은 최대 Q-value를 직접 사용하기 때문에 일부 행동의 Q-value가 과대평가될 수 있습니다.

2. Double DQN(Double Deep Q-Network)이란?

Double DQN(DDQN)은 DQN의 Q-value 과대평가 문제를 해결하기 위해 제안되었습니다.

Double DQN 업데이트 수식

$$ Y^{DDQN}_t = r_t + \gamma Q(s_{t+1}, \arg\max_{a'} Q(s_{t+1}, a'; \theta); \theta^-) $$

DDQN은 다음과 같은 방식으로 개선됩니다:

**현재 네트워크($\theta$)**에서 최적의 행동($\arg\max$)을 선택
**타겟 네트워크($\theta^-$)**에서 해당 행동의 Q-value를 평가

3. 예제 비교 (Grid World 환경)

예를 들어, 현재 상태에서 Q-value가 다음과 같다고 가정해 보겠습니다.

$$ Q(s, \text{up}) = 5.2, \quad Q(s, \text{right}) = 5.0 $$

DQN은 $\max$를 사용하여 "up"을 선택하지만, 실제로는 잘못된 값일 가능성이 있습니다.

반면, Double DQN은:

현재 네트워크($\theta$)에서 $\arg\max$로 행동 선택
타겟 네트워크($\theta^-$)에서 선택한 행동의 Q-value를 평가

이를 통해 더 안정적인 학습이 가능합니다.

4. 결론 및 요약

	DQN	Double DQN (DDQN)
Q-value 계산	$\max Q$ 사용	$\arg\max Q$로 액션 선택 후, 타겟 네트워크로 평가
과대평가 문제	있음 (Q-value bias 발생)	줄어듦 (과대평가 방지)
학습 안정성	불안정할 수 있음	더 안정적
성능	특정 환경에서 성능 저하 가능	일반적으로 더 나은 성능

Double DQN은 DQN의 단점을 보완하여 Q-value의 과대평가 문제를 줄이고 학습의 안정성을 향상시키는 강화 학습 알고리즘입니다.

**DQN(Deep Q-Network)**과 **Dueling DQN**은 모두 강화학습에서 **Q-learning**의 확장으로, **딥러닝**을 이용해 상태-행동 값 함수인 Q함수를 근사합니다. 하지만, **Dueling DQN**은 **DQN**의 성능을 향상시키기 위해 구조적으로 개선된 버전입니다. 이 두 알고리즘의 차이를 이론과 예제를 통해 설명하겠습니다.

Ⅰ. DQN (Deep Q-Network)

DQN은 **Q-learning**을 딥러닝 모델을 이용하여 확장한 방법입니다. **Q-learning**은 에이전트가 각 상태에서 취할 수 있는 행동에 대한 가치를 추정하는 알고리즘입니다. 이를 통해, 에이전트는 최적의 행동을 선택하여 장기적인 보상을 극대화하려고 합니다.

Q함수: Q함수는 특정 상태 $ s $에서 특정 행동 $ a $를 취할 때 예상되는 장기적인 보상입니다.

$$ Q(s, a) = E[R_t | s_t = s, a_t = a] $$

딥러닝 모델: DQN은 **신경망**을 사용하여 상태 $ s $에서 각 행동 $ a $에 대한 Q값을 추정합니다. 이 신경망을 학습시키기 위해, 에이전트는 경험을 통해 얻은 상태, 행동, 보상, 다음 상태를 이용해 Q값을 업데이트합니다.

경험 재생(Experience Replay)과 타깃 네트워크(Target Network): DQN은 경험 재생과 타깃 네트워크를 사용하여 학습을 안정화시킵니다.

Ⅱ. Dueling DQN

Dueling DQN은 DQN의 성능을 개선하기 위해 **Q함수**를 **두 개의 부분으로 분리**하는 방법을 제시합니다. Dueling DQN은 **상태의 가치**와 **행동의 우선성**을 따로 학습하여, **Q값을 더 효율적으로 추정**할 수 있도록 만듭니다.

상태의 가치 (Value Function): 각 상태가 얼마나 좋은지, 즉 특정 상태에서 얻을 수 있는 **최적 보상의 예상값**입니다.

$$ V(s) = \max_a Q(s, a) $$

행동의 우선성 (Advantage Function): 특정 행동이 현재 상태에서 얼마나 더 우수한지에 대한 **상대적인 가치**입니다. 이를 통해, 특정 행동이 다른 행동에 비해 얼마나 우수한지 평가합니다.

$$ A(s, a) = Q(s, a) - V(s) $$

Q값 추정: Dueling DQN은 두 개의 네트워크를 분리하여, 상태 $ s $에 대한 가치 $ V(s) $와 각 행동 $ a $의 우선성 $ A(s, a) $를 구한 후, 이를 결합하여 Q값을 구합니다.

$$ Q(s, a) = V(s) + A(s, a) $$

Ⅲ. DQN과 Dueling DQN의 차이점

특징	DQN	Dueling DQN
Q값 추정	하나의 신경망을 사용하여 상태-행동 쌍에 대한 Q값을 예측	상태 가치와 행동 우선성을 분리하여 Q값을 예측
상태-행동 쌍의 중요성	모든 행동에 대해 동일한 중요도를 가짐	상태에서 중요한 부분과 행동에서 중요한 부분을 구분하여 학습
효율성	상태-행동 가치 추정이 한정적일 수 있음	더 정확한 Q값 추정, 특히 상태가 중요한 환경에서는 더 효율적
학습 안정성	보상 신호에 의존하며, 학습이 불안정할 수 있음	상태의 가치와 행동 우선성을 구분하여 더 안정적인 학습 가능
수렴 속도	느림	빠르고 안정적
적용 사례	정책을 직접 학습하는 데 적합	상태가 중요한 환경에서 효과적, 더 정확한 행동 선택 가능

Ⅳ. DQN과 Dueling DQN의 예시 비교

체스 예시:

- **DQN**: 체스 게임에서 각 상태에서 가능한 모든 수에 대해 Q값을 계산하고, 가장 높은 Q값을 가진 수를 선택합니다. 이때, 특정 상태에서 행동의 중요도가 명확하지 않으면, Q값이 정확히 추정되지 않아서 잘못된 수를 선택할 가능성이 있습니다.

- **Dueling DQN**: 체스에서 특정 상태가 매우 중요하고, 그 상태에서 어떤 수를 두는 것이 더 중요한지를 구별합니다. 예를 들어, 게임이 끝나가는 상황에서는 **상태의 가치**가 강조되고, 중간 단계에서는 **행동의 우선성**이 중요해지며, 이는 더 정확한 행동을 선택하도록 만듭니다.

Ⅴ. 결론

DQN은 신경망을 사용하여 Q값을 추정하는 기본적인 방법으로, 각 상태-행동 쌍에 대해 Q값을 예측합니다.

Dueling DQN은 Q값을 상태의 가치와 행동의 우선성으로 분리하여 **보다 효율적이고 정확한 Q값 추정**을 가능하게 합니다. 특히, **상태가 중요한 환경**에서는 Dueling DQN이 더 우수한 성능을 보입니다.

Dueling DQN은 DQN의 한계를 보완하고 성능을 향상시킬 수 있는 강력한 알고리즘으로, **복잡한 환경에서 더 안정적이고 빠른 학습을 가능하게** 합니다.

REINFORCE와 Actor-Critic학습의 차이점-강화학습

REINFORCE와 액터-크리틱 학습의 차이점

REINFORCE와 액터-크리틱(Actor-Critic) 학습은 모두 강화학습에서 정책 기반(Policy-based) 알고리즘에 속하지만, 학습 방식에서 차이가 있습니다. 두 알고리즘의 차이를 예시를 통해 이해해보겠습니다.

Ⅰ. REINFORCE (정책 기울기 방법)

REINFORCE는 정책 기반 알고리즘으로, 에이전트가 직접적으로 정책을 학습하여 보상을 최적화합니다. 이 알고리즘은 에피소드가 끝날 때까지 모든 상태-행동 쌍을 수집한 후, 전체 보상을 기반으로 정책을 업데이트합니다.

예시: 에이전트가 미로를 탐험한다고 가정합니다. REINFORCE는 에피소드가 끝난 후, 모든 행동에 대해 얻은 보상을 기반으로 정책을 업데이트합니다. 만약 중간에 보상을 많이 받았다면 그에 해당하는 행동들이 더 자주 선택되도록 정책을 조정합니다.

Ⅱ. 액터-크리틱 (Actor-Critic) 학습

액터-크리틱은 REINFORCE의 한계를 보완한 알고리즘입니다. 액터-크리틱은 정책 기반(Actor)과 가치 기반(Critic)을 결합하여 더 효율적으로 학습할 수 있습니다. 액터는 에이전트가 행동을 선택하는 역할을 하고, 크리틱은 선택한 행동이 얼마나 좋은지 평가합니다.

예시: 동일한 미로 탐험 문제를 생각해봅시다. 액터는 미로를 탐험하며 행동을 선택하고, 크리틱은 그 선택에 대한 가치를 평가합니다. 만약 목표에 가까운 행동을 선택했다면 크리틱은 높은 가치를 부여하고, 액터는 그 행동을 더 많이 선택하도록 정책을 업데이트합니다.

Ⅲ. REINFORCE와 액터-크리틱의 차이점

특징	REINFORCE	액터-크리틱
기반 알고리즘	정책 기반 (Policy-based)	정책 기반 + 가치 기반 (Policy-based + Value-based)
정책 업데이트 방식	에피소드 끝난 후, 전체 보상을 기반으로 업데이트	실시간으로 정책을 업데이트, 크리틱의 가치를 기반으로 액터 업데이트
속도	상대적으로 느림	상대적으로 빠름
안정성	변동성이 크고 불안정할 수 있음	크리틱의 가치를 통해 안정적이고 점진적인 업데이트 가능
수렴 속도	느림	빠르고 안정적
적용 사례	정책을 직접 학습하는 데 적합	정책과 가치를 동시에 학습하는 데 적합

Ⅳ. 결론

REINFORCE는 간단한 정책 기반 알고리즘으로, 정책을 직접 학습하지만, 보상에 의존하여 변동성이 크고 학습 속도가 느릴 수 있습니다. 반면, 액터-크리틱은 가치 기반 방식을 결합하여 더 빠르고 안정적인 학습을 제공합니다. 액터-크리틱은 실시간으로 정책을 업데이트하고, 크리틱의 평가를 통해 학습 속도를 향상시킵니다.

따라서, 문제에 따라 적합한 알고리즘을 선택하는 것이 중요합니다. 복잡한 문제에서는 액터-크리틱 알고리즘이 더 효율적이고 안정적인 학습을 도와줄 수 있습니다.

REINFORCE와 DQN의 차이점 - 강화학습

REINFORCE와 DQN의 차이점

REINFORCE와 DQN은 강화학습에서 널리 사용되는 두 가지 알고리즘입니다. 이들 알고리즘은 서로 다른 방식으로 에이전트가 환경과 상호작용하며 학습합니다. REINFORCE와 DQN의 주요 차이점은 학습 방식, 정책 업데이트 방법, 적용 가능한 문제 유형 등입니다.

Ⅰ. 학습 방식

REINFORCE는 정책 기반 (Policy-based) 알고리즘입니다. 에이전트는 직접적으로 정책을 학습하여 보상을 최적화합니다. 반면, DQN은 가치 기반 (Value-based) 알고리즘으로, 상태-행동 값 함수(Q-value)를 학습하여 최적의 정책을 유도합니다.

Ⅱ. 정책 업데이트

REINFORCE는 전체 에피소드가 끝난 후에 수집한 보상을 사용하여 정책을 업데이트합니다. 이때, 정책 기울기(Policy Gradient) 방식을 사용합니다. 반면, DQN은 상태-행동 쌍(Q값)을 추정하고, 각 상태에서 최적의 행동을 선택하기 위해 Q 값을 업데이트합니다.

Ⅲ. 정책의 형태

REINFORCE는 확률적 정책(stochastic policy)을 사용합니다. 즉, 특정 상태에서 여러 행동을 선택할 확률을 학습합니다. 반면, DQN은 결정적 정책(deterministic policy)을 사용하여 특정 상태에서 가장 큰 Q 값을 선택하는 방식입니다.

Ⅳ. 수렴 속도 및 안정성

REINFORCE는 정책 업데이트 시 전체 에피소드에 대해 한 번에 업데이트를 수행하기 때문에 수렴 속도가 느리고 변동성이 클 수 있습니다. 반면, DQN은 경험 리플레이(Experience Replay)와 타겟 네트워크(Target Network)를 사용하여 학습의 안정성을 높이고 빠르게 수렴할 수 있습니다.

Ⅴ. 적용 사례

REINFORCE: 연속적인 행동 공간이나 복잡한 정책을 학습할 때 유리합니다. 예를 들어, 로봇 제어 및 고차원 연속적인 문제에서 사용됩니다.
DQN: 주로 디스크리트(Discrete) 행동 공간에서 사용되며, ATARI 게임처럼 명확한 상태-행동 쌍이 있는 문제에서 좋은 성과를 보입니다.

Ⅵ. REINFORCE와 DQN의 차이 요약

특징	REINFORCE	DQN
학습 방식	정책 기반 (Policy-based)	가치 기반 (Value-based)
정책 업데이트	전체 에피소드 후 정책 업데이트 (Policy Gradient)	상태-행동 쌍의 Q 값 업데이트 (Q-Learning)
정책 형태	확률적 정책 (Stochastic)	결정적 정책 (Deterministic)
수렴 속도	느림, 변동성 클 수 있음	빠르고 안정적
적용 사례	복잡한 연속 행동 문제	디스크리트 행동 문제 (예: ATARI 게임)

Ⅶ. 결론

REINFORCE와 DQN은 각각의 장단점이 있으며, 문제의 특성에 따라 적합한 알고리즘을 선택하는 것이 중요합니다. REINFORCE는 복잡하고 연속적인 문제에서 유리한 반면, DQN은 고전적인 강화학습 문제인 게임과 같은 환경에서 더 효과적입니다. 두 알고리즘 모두 강화학습의 중요한 기법으로, 다양한 분야에서 활용될 수 있습니다.

DQN 이론과 예제 - 강화학습

강화학습 DQN 이론과 예제

강화학습에서 DQN (Deep Q-Network) 이론과 예제

강화학습(Reinforcement Learning)은 에이전트가 환경과 상호작용하면서 보상(reward)을 최대화하는 행동을 학습하는 방식입니다. DQN(Deep Q-Network)은 이러한 강화학습을 심층 신경망(Deep Neural Network)을 활용하여 더 복잡한 문제를 해결하는 방법 중 하나입니다. 특히 Q-러닝(Q-learning) 알고리즘에 심층 신경망을 결합한 형태로, 복잡한 환경에서 최적의 정책을 찾는 데 효과적입니다.

Ⅰ. Q-러닝 (Q-learning) 기본 이론

Q-러닝은 모델 프리 강화학습 알고리즘으로, 에이전트가 환경에서 각 상태(state)에서 어떤 행동(action)을 취할 때 얻을 보상(reward)을 추정하는 방식입니다. 핵심 아이디어는 각 상태-행동 쌍에 대해 Q 값을 학습하는 것입니다.

Q 값 (Q-value)

Q 값은 특정 상태에서 특정 행동을 취했을 때, 예상되는 누적 보상을 의미합니다. 상태 $s$와 행동 $a$에 대한 Q 값은 다음과 같이 정의됩니다:

$$ Q(s, a) = \mathbb{E}\left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] $$

여기서:

s: 상태
a: 행동
γ: 할인율 (0과 1 사이의 값으로 미래 보상의 중요도를 결정)
r_t: 시간 t에서 받은 보상
ℰ: 기댓값

Q 값 업데이트 공식

Q-러닝에서 Q 값은 다음과 같은 방식으로 업데이트됩니다:

$$ Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_{t+1} + \gamma \max_a Q(s_{t+1}, a) - Q(s_t, a_t) \right] $$

여기서:

α: 학습률 (새로운 정보가 기존 정보에 얼마나 반영될지 결정)
γ: 할인율
max_a Q(s_{t+1}, a): 다음 상태에서 가능한 모든 행동에 대한 Q 값 중 가장 큰 값을 선택

Ⅱ. DQN (Deep Q-Network)

Q-러닝은 단순한 상태-행동 공간에서는 잘 작동하지만, 상태와 행동 공간이 거대하거나 연속적인 경우에는 Q 테이블을 저장하고 관리하는 데 한계가 있습니다. 이를 해결하기 위해 딥러닝을 활용한 DQN이 등장했습니다.

DQN의 주요 구성 요소

Q 네트워크 (Q-network): 딥러닝을 활용해 상태 s를 입력받아, 각 행동 a에 대한 Q 값을 출력하는 신경망입니다.
경험 리플레이 (Experience Replay): DQN은 에이전트가 경험한 상태, 행동, 보상, 다음 상태를 메모리에 저장하고, 무작위로 샘플을 추출하여 학습에 활용합니다.
타겟 네트워크 (Target Network): 두 개의 Q 네트워크를 사용하며, 타겟 네트워크는 일정 주기로 온라인 네트워크의 파라미터를 복사하여 사용합니다.

Ⅲ. DQN 예제: 고전적인 CartPole 문제

DQN을 적용한 고전적인 예제는 CartPole 문제입니다. 이 문제는 물리적인 시스템으로, 기둥을 수직으로 세우는 것이 목표입니다. 에이전트는 기둥이 넘어지지 않도록 카트를 왼쪽이나 오른쪽으로 이동시키는 방식으로 제어합니다.

문제 설정

상태 공간: 카트의 위치, 속도, 기둥의 각도, 각속도 (4차원)
행동 공간: 카트를 왼쪽으로 또는 오른쪽으로 이동 (2가지 행동)
목표: 기둥이 넘어지지 않게 하여 최대한 오래 유지하는 것

DQN 적용 과정

상태 입력: 카트의 상태를 신경망의 입력으로 사용합니다.
Q-값 예측: 신경망은 각 상태에 대해 각 행동에 대한 Q 값을 예측합니다.
행동 선택: ε-greedy 방식으로 행동을 선택합니다. 대부분은 Q 값이 높은 행동을 선택하고, 가끔은 무작위로 행동을 선택하여 탐색합니다.
보상 계산: 카트가 기둥을 넘어뜨리면 보상이 0이고, 그렇지 않으면 보상이 1이 주어집니다.
Q-값 업데이트: 경험 리플레이와 타겟 네트워크를 사용하여 Q 값을 업데이트합니다.

Ⅳ. 결론

DQN은 강화학습에서 Q-러닝을 심층 신경망과 결합한 방법으로, 고차원적이고 복잡한 환경에서도 효과적으로 최적의 정책을 학습할 수 있는 강력한 도구입니다. 경험 리플레이와 타겟 네트워크는 DQN의 안정성을 높이는 중요한 요소로 작용합니다.

DQN은 CartPole과 같은 간단한 예제부터 ATARI 게임, 로봇 제어, 자율 주행 등 다양한 분야에서 활용될 수 있습니다. 딥러닝과 강화학습의 결합으로, 에이전트는 인간처럼 복잡한 환경을 학습하고, 그에 맞는 최적의 행동을 선택할 수 있습니다.

REINFORCE학습-강화학습

REINFORCE 학습이란?

📌 REINFORCE 학습이란?

REINFORCE는 정책 기반(Policy-based) 강화학습 알고리즘 중 하나로, 에이전트가 환경과 상호작용하며 더 나은 행동을 선택하도록 정책을 직접 학습하는 방법입니다.

💡 이 알고리즘은 정책 그래디언트(Policy Gradient) 방법의 기초적인 형태로, 보상을 최대화하는 방향으로 정책을 조정합니다.

🚀 REINFORCE의 핵심 개념

1️⃣ 정책(Policy)이란?

정책(π)은 특정 상태에서 어떤 행동을 할 확률을 결정하는 함수입니다.

예를 들어, 사람이 자판기에서 음료를 선택하는 방식도 정책이라고 볼 수 있습니다.

2️⃣ 정책 기반 학습 vs. 가치 기반 학습

기존의 Q-learning(가치 기반)은 행동에 대한 "가치"를 계산하여 최적의 행동을 선택합니다.

반면, REINFORCE(정책 기반) 학습은 정책 자체를 학습하여 최적의 행동을 찾는 방식입니다.

🔥 REINFORCE 학습 과정

에이전트가 환경에서 행동을 수행하면서, 좋은 행동의 확률을 증가시키고 나쁜 행동의 확률을 감소시키는 과정입니다.

📌 학습 과정 단계

1️⃣ 에이전트가 환경에서 여러 번 에피소드(episode)를 수행
2️⃣ 각 에피소드에서 상태(State), 행동(Action), 보상(Reward)을 저장
3️⃣ 에피소드가 끝난 후, 총 누적 보상(Return)을 계산
4️⃣ 좋은 보상을 받은 행동의 확률을 증가시키고, 나쁜 행동의 확률을 줄임

🎯 쉬운 예제: 슬롯머신 게임

🎰 슬롯머신이 여러 개 있는 카지노에서 최대한 많은 돈을 벌고 싶다면?

어떤 슬롯머신을 당길지 정책을 학습해야 합니다!

📌 슬롯머신 게임에서 REINFORCE 적용하기

🎯 처음에는 무작위로 슬롯머신을 선택해서 돈을 넣고 당김
🎯 어떤 슬롯머신이 더 높은 보상을 주는지 학습
🎯 보상이 높은 슬롯머신을 당길 확률을 높이고, 보상이 낮은 것은 줄임
🎯 학습이 진행될수록 최적의 슬롯머신을 찾는 방향으로 행동

💡 즉, 보상을 최대화하는 방향으로 정책을 조정하는 것이 REINFORCE 학습의 핵심!

🛠 REINFORCE 알고리즘의 한계점

✅ 장점:

정책을 직접 학습하기 때문에 복잡한 환경에서도 적용 가능
연속적인 행동 공간에서도 사용 가능 (예: 로봇 제어)

❌ 단점:

학습 속도가 느림 (많은 에피소드 필요)
보상이 너무 늦게 주어지면 학습이 어려움

📌 정리

REINFORCE는 정책 기반 강화학습 알고리즘으로, 행동의 확률을 직접 학습하는 방법
에이전트는 환경에서 여러 번 시도하며, 좋은 행동은 강화하고 나쁜 행동은 줄이는 방식
슬롯머신 게임처럼 어떤 선택이 최선인지 학습하는 데 사용 가능
하지만 학습이 오래 걸릴 수 있으며, 보상이 늦게 주어질 경우 어려움이 있음

💡 REINFORCE를 이해하면, 딥러닝 기반의 강화학습 모델을 만들 때 큰 도움이 됩니다! 😊

2025년 3월 8일 토요일

온폴리시와 오프폴리시 학습-강화학습

강화학습: 온폴리시와 오프폴리시 학습

강화학습: 온폴리시(On-policy)와 오프폴리시(Off-policy) 학습

강화학습에서 에이전트는 주어진 환경에서 보상을 최대화하는 방향으로 행동을 학습합니다. 이때 학습 방식에 따라 온폴리시(On-policy)와 오프폴리시(Off-policy)로 나뉩니다.

1. 온폴리시(On-policy) 학습

온폴리시 학습은 현재 실행 중인 정책을 그대로 개선하는 방식입니다. 즉, 에이전트가 행동을 선택하는 정책과 학습하는 정책이 동일합니다.

예제: 축구 선수와 코치

선수는 현재 배우고 있는 기술을 연습합니다.
코치는 선수의 플레이를 평가하고 피드백을 줍니다.
선수는 코치의 조언을 바탕으로 점진적으로 발전합니다.

즉, 현재 사용 중인 행동 방식을 개선하면서 학습하는 방식이 온폴리시입니다.

대표 알고리즘: SARSA

2. 오프폴리시(Off-policy) 학습

오프폴리시 학습은 현재 실행하는 정책과 학습하는 정책이 다를 수 있는 방식입니다. 과거 데이터를 활용하여 학습할 수도 있습니다.

예제: 축구 선수와 경기 영상 분석

선수는 유명한 선수들의 경기 영상을 보며 학습합니다.
코치는 다양한 플레이 스타일을 분석하여 지도합니다.
선수는 과거 데이터를 바탕으로 새로운 전략을 연습합니다.

즉, 기존에 경험한 데이터나 다른 사람이 했던 행동을 활용하는 방식이 오프폴리시입니다.

대표 알고리즘: Q-learning, DQN

3. 비교: 온폴리시 vs. 오프폴리시

구분	온폴리시(On-policy)	오프폴리시(Off-policy)
학습 방식	현재 사용하는 정책을 개선	과거 데이터나 다른 정책을 활용
예제	축구 코치가 실전 플레이를 지도	경기 영상을 보며 학습
대표 알고리즘	SARSA	Q-learning, DQN
장점	안정적인 학습, 정책 일관성 유지	과거 경험을 활용, 탐색 범위가 넓음
단점	탐색이 제한적, 효율성이 떨어질 수 있음	훈련이 어려울 수 있음, 과적합 위험

4. 어떤 방식을 선택해야 할까?

📌 실시간 조정이 필요하고, 안정적인 학습을 원한다면 → 온폴리시
📌 과거 데이터를 활용하고, 더 다양한 시도를 해보고 싶다면 → 오프폴리시

이처럼 온폴리시와 오프폴리시는 학습 방식의 차이가 있으며, 문제의 특성에 따라 적절한 방식을 선택하는 것이 중요합니다. 😊

2025년 3월 7일 금요일

왜 액터-크리틱을 사용해야 하는지?

왜 액터-크리틱(Actor-Critic)을 사용해야 하는지?

액터-크리틱(Actor-Critic) 알고리즘이란?

액터-크리틱(Actor-Critic) 알고리즘은 강화학습에서 정책 기반과 가치 기반 방법을 결합한 하이브리드 모델입니다. 액터-크리틱은 두 가지 주요 컴포넌트인 액터(Actor)와 크리틱(Critic)을 사용하여, 에이전트가 환경과 상호작용하면서 최적의 행동을 선택할 수 있도록 돕습니다.

액터-크리틱을 사용해야 하는 이유

액터-크리틱 알고리즘을 사용하는 이유는 다음과 같습니다:

1. 큰 상태공간과 행동공간을 처리할 때

상태공간(state space)과 행동공간(action space)이 매우 클 경우, 정책 기반 방법이나 가치 기반 방법만으로는 학습이 매우 비효율적이거나 느려질 수 있습니다. 액터-크리틱 알고리즘은 정책을 확률적으로 업데이트하고, 가치 함수를 함께 사용하여, 상태공간과 행동공간이 클 때도 더 효율적으로 학습할 수 있습니다. 액터는 연속적인 상태에서도 자연스럽게 정책을 결정할 수 있으며, 크리틱은 가치 추정을 통해 액터가 잘못된 행동을 피할 수 있도록 돕습니다.

2. 연속적인 행동공간에서 효율적인 학습

연속적인 행동공간을 다뤄야 하는 경우, 액터-크리틱 알고리즘은 정책을 연속적으로 학습할 수 있어 연속적인 행동공간에서도 효율적으로 학습이 가능합니다. 예를 들어, 로봇 제어 문제에서 로봇의 이동을 제어하는 데 있어 속도나 각도를 연속적으로 조정해야 한다면, 액터-크리틱은 각 상태에서 적합한 행동을 연속적으로 결정하고, 크리틱은 그 행동이 얼마나 효과적인지를 평가하여 피드백을 제공합니다.

3. 보상 지연 문제 해결

강화학습에서 보상 지연(delay in reward) 문제는 중요한 도전 과제 중 하나입니다. 즉, 에이전트가 취한 행동이 즉각적인 보상으로 이어지지 않고, 여러 단계 후에야 보상을 받을 때 문제가 발생합니다. 이 경우, 정책 기반 방법은 보상을 받기 전에 여러 가지 행동을 취했기 때문에 학습이 불안정해질 수 있습니다. 액터-크리틱 알고리즘은 크리틱이 가치 함수를 계산하고, 그 정보를 액터에게 피드백으로 제공하여 보상이 지연되더라도 정확한 정책 업데이트를 할 수 있도록 돕습니다.

4. 정책과 가치 함수를 동시에 학습

액터-크리틱 알고리즘은 정책과 가치를 동시에 학습할 수 있기 때문에 학습의 속도와 안정성이 높아집니다. 정책 기반 방법은 연속적인 공간에서 잘 작동하지만, 가치 기반 방법은 더 빠른 학습을 가능하게 합니다. 액터-크리틱은 두 가지를 결합하여 더 빠르고 효율적인 학습을 가능하게 합니다. 액터는 행동을 선택하고, 크리틱은 그 행동의 가치를 평가하면서 두 모델이 서로 보완적으로 학습을 진행합니다.

5. 복잡한 환경에서의 안정성과 성능

액터-크리틱 알고리즘은 상태-행동의 복잡한 관계를 잘 처리할 수 있기 때문에 복잡한 환경에서 효과적입니다. 예를 들어, 동적 환경에서 여러 변수들이 상호작용하는 상황에서 액터-크리틱은 매우 유리합니다. 크리틱은 환경에 대한 상태-행동 가치 추정을 통해 정책이 어떻게 개선될지를 알려주기 때문에, 복잡한 상호작용을 처리하는 데 유리합니다. 액터는 여러 가지 행동을 시도하면서 최적의 행동을 찾아내고, 크리틱은 이들에 대한 평가를 통해 안정적인 학습을 도와줍니다.

결론

액터-크리틱 알고리즘은 상태공간과 행동공간이 큰 경우나 연속적인 행동공간에서 매우 유용하며, 정책과 가치를 동시에 학습하 장점으로 복잡한 환경에서도 안정적이고 효율적인 학습을 제공합니다. 다른 강화학습 알고리즘들과 비교했을 때, 액터-크리틱은 두 가지 중요한 요소인 정책과 가치를 동시에 학습하여 더 빠르고 안정적인 성능을 보장할 수 있습니다.

Actor-Critic 강화학습 - 온라인 쇼핑몰 가격 최적화

액터-크리틱 강화학습을 활용한 온라인 쇼핑몰 가격 최적화

강화학습(Reinforcement Learning, RL)은 어떤 환경에서 에이전트(Agent)가 최적의 행동을 선택하여 보상을 최대화하는 방법을 학습하는 알고리즘입니다. 이 방법은 주로 게임, 로봇 제어, 추천 시스템 등 다양한 분야에 적용됩니다. 이번에는 액터-크리틱(Actor-Critic) 강화학습을 통해 온라인 쇼핑몰에서 가격을 최적화하는 방법을 알아보겠습니다.

액터-크리틱 강화학습 이해하기

액터-크리틱(Actor-Critic)은 두 가지 주요 구성 요소인 액터(Actor)와 크리틱(Critic)을 사용하여 정책을 학습하는 강화학습 알고리즘입니다.

액터(Actor): 정책을 담당하는 부분입니다. 현재 상태에서 어떤 행동을 취할지를 결정합니다.
크리틱(Critic): 액터가 취한 행동에 대해 평가하는 부분입니다. 액터가 선택한 행동의 가치(즉, 보상)가 얼마나 좋은지를 판단합니다.

이 두 구성 요소가 함께 작동하여 에이전트가 환경에서 최적의 전략을 찾아가도록 도와줍니다.

온라인 쇼핑몰 가격 최적화 문제

온라인 쇼핑몰의 가격을 최적화하려는 목표는 주어진 상품에 대해 최적의 가격을 찾는 것입니다. 이는 소비자들이 특정 가격에 대해 얼마나 반응할지 예측하고, 이를 기반으로 최적의 가격을 설정하는 문제입니다.

문제 설정 예시

상태(State): 현재 상품의 재고 수준, 판매량, 경쟁사의 가격 등
행동(Action): 상품의 가격을 설정하는 것 (예: 가격을 10% 올리거나 내리기)
보상(Reward): 판매된 상품의 이익, 즉 가격과 판매량에 기반한 수익

목표는 쇼핑몰이 상품 가격을 설정할 때, 최적의 가격을 찾아 최대 이익을 얻는 것입니다.

액터-크리틱을 사용한 가격 최적화 알고리즘

강화학습을 통해 최적의 가격을 설정하려면, 에이전트가 각 상태에서 어떤 가격을 설정할지 결정해야 합니다. 액터-크리틱 알고리즘을 통해 에이전트는 판매량이나 가격 변화에 따라 최적의 가격을 학습해 나갈 수 있습니다. 이를 통해 시간이 지나면서 점점 더 최적화된 가격을 제시할 수 있게 됩니다.

"성공적인 가격 최적화는 시간이 지나면서 지속적으로 이루어지는 학습의 결과입니다." - 액터-크리틱 강화학습

2025년 3월 6일 목요일

정책기반 이터레이션 예제 - 강화학습

정책기반 이터레이션: 에이전트가 최적의 행동을 결정하는 과정

정책기반 이터레이션이란?

정책기반 이터레이션은 강화학습의 한 방법으로, 에이전트가 각 상태에서 어떤 행동을 해야 하는지 직접 학습하는 방식입니다. 이 방법은 정책(Policy)을 학습하는 데 초점을 두고 있으며, 각 상태에서 취할 최적의 행동을 결정합니다.

정책기반 이터레이션 예제

이 예제에서는 온라인 쇼핑몰에서 판매하는 제품의 가격을 어떻게 결정할지에 대해 에이전트가 학습하는 상황을 상상해봅시다.

1) 상태(State)

에이전트는 주어진 상태에서 가격을 조정하는 방법을 결정해야 합니다. 이 상태는 쇼핑몰의 다양한 정보를 포함할 수 있습니다.

현재 가격: 예: 50달러
재고량: 예: 100개
판매 수요: 예: 하루 판매량 10개
경쟁업체 가격: 예: 45달러

2) 행동(Action)

에이전트는 상태에 따라 할 수 있는 행동을 취합니다. 이 행동은 가격을 올리거나 내리거나 유지하는 것입니다.

가격 올리기: 예: 가격 5달러 인상
가격 내리기: 예: 가격 5달러 인하
가격 유지: 예: 가격 그대로 유지

3) 보상(Reward)

가격을 올리거나 내리거나 유지할 때마다 보상이 주어집니다. 보상은 판매량과 이익에 의해 결정됩니다.

가격을 올리면 판매량이 줄어들어 보상이 적을 수 있습니다.
가격을 내리면 판매량이 늘어나지만, 이익은 적어질 수 있습니다.
가격을 유지하면 판매량과 이익이 안정적으로 유지될 수 있습니다.

4) 정책(Policy)

정책은 각 상태에서 취할 최적의 행동을 결정하는 규칙입니다. 예를 들어, "상태가 '재고가 많고 판매량이 적으면 가격을 내린다" 또는 "경쟁업체 가격이 낮으면 가격을 올린다"는 규칙을 의미합니다.

정책기반 이터레이션 과정

정책기반 이터레이션의 과정은 다음과 같습니다:

1단계: 초기 정책 설정

에이전트는 초기 정책을 설정합니다. 예를 들어, "재고가 많으면 가격을 내린다", "경쟁업체 가격이 낮으면 가격을 올린다"라는 정책을 설정할 수 있습니다.

2단계: 정책 평가

에이전트는 이 초기 정책을 따르며 행동을 취합니다. 그 후, 각 행동의 결과를 평가하여 보상을 받습니다. 예를 들어, 가격을 내리면 판매량이 증가할 수 있지만, 이익은 적어질 수 있습니다. 이를 평가하여 보상을 계산합니다.

3단계: 정책 개선

평가한 결과를 바탕으로 에이전트는 정책을 개선합니다. 예를 들어, 가격을 내리는 대신 더 나은 결과를 얻을 수 있는 방법을 찾아내고, 정책을 수정합니다. 이렇게 점진적으로 정책을 개선하며, 최적의 가격 결정을 학습합니다.

4단계: 최적 정책 도출

에이전트는 반복적인 과정을 통해 최적의 가격 정책을 도출해냅니다. 이때 에이전트는 상태마다 가장 적합한 행동을 취하는 정책을 학습하게 됩니다.

결론

정책기반 이터레이션은 상태마다 최적의 행동을 학습하는 과정입니다. 온라인 쇼핑몰 가격 결정 예제에서는 에이전트가 재고, 판매 수요, 경쟁업체 가격 등을 고려하여 최적의 가격을 결정하는 정책을 학습합니다. 이를 통해 에이전트는 상태에 맞는 최적의 가격 행동을 찾아내고, 이익을 극대화할 수 있게 됩니다.

정책기반 이터레이션은 직접적으로 정책을 학습하는 방법이므로, 복잡한 환경에서 여러 조건을 고려한 최적의 결정을 내릴 수 있게 합니다.

가치기반 vs. 정책기반 이터레이션 - 강화학습

강화학습을 통한 가격 결정: 가치기반 vs 정책기반 이터레이션

강화학습을 통한 가격 결정: 가치기반 이터레이션과 정책기반 이터레이션

강화학습이란?

강화학습(RL)은 주어진 환경에서 에이전트가 최적의 행동을 선택하여 보상을 최대화하는 방법을 학습하는 과정입니다. 온라인 쇼핑몰에서 가격 결정을 강화학습을 통해 자동화하려는 경우, 두 가지 접근 방식—가치기반 이터레이션(Value-based Iteration)과 정책기반 이터레이션(Policy-based Iteration)—을 사용할 수 있습니다.

1. 가치기반 이터레이션 (Value-based Iteration)

가치기반 이터레이션은 각 상태에서 최적의 가치를 계산하여, 그 가치를 기반으로 최적의 행동(가격)을 선택하는 방법입니다. 이 방법에서는 상태 가치 함수(Value Function)를 사용하여 각 상태의 가치를 평가하고, 그 가치를 최대화하는 행동을 선택합니다.

예제: 온라인 쇼핑몰 가격 결정

상태(State): 현재 쇼핑몰에서 판매 중인 제품의 재고량, 현재 가격, 구매 수요 등과 같은 정보를 포함한 상태를 정의합니다. 예: "재고 100개, 가격 50달러, 지난 7일 동안의 판매량 200개"
행동(Action): 에이전트가 취할 수 있는 행동은 가격을 변경하는 것입니다. 예를 들어, 가격을 10달러 올리거나 내리거나 유지하는 방식입니다.
보상(Reward): 가격 변화에 따른 보상은 판매량이나 총 이익(가격 * 판매량)에 의해 결정됩니다. 예: "판매량이 100개라면, 총 이익 100개 * 가격 50달러 = 5000달러"
가치 함수(Value Function): 각 상태에서 최적의 가격을 선택하기 위해 상태 가치 함수 V(s)를 사용합니다. 이는 각 상태에서 최적의 행동을 선택할 때 얻을 수 있는 예상 보상의 총합을 나타냅니다.

알고리즘 (Bellman Equation)

각 상태의 가치는 그 상태에서 취할 수 있는 모든 행동의 예상 보상과, 그 상태에서 다음 상태로의 전이 확률을 고려하여 계산됩니다. 예를 들어, 상태 s1에서 가격을 10달러 올리는 행동을 취했을 때, 새로운 상태 s2로 이동하게 되고, 그 상태에서 얻을 보상을 계산합니다.

2. 정책기반 이터레이션 (Policy-based Iteration)

정책기반 이터레이션은 각 상태에서 최적의 행동을 직접적으로 계산하는 방법입니다. 이 방법에서는 가치 함수보다는 정책(Policy)을 직접 학습합니다. 정책은 각 상태에서 취할 최적의 행동을 결정하는 규칙입니다.

예제: 온라인 쇼핑몰 가격 결정

상태(State): 가격을 조정할 시점에서의 재고와 판매량, 경쟁 가격 등을 포함한 상태를 정의합니다. 예: "현재 가격 50달러, 경쟁업체 가격 45달러, 재고 100개"
정책(Policy): 에이전트는 주어진 상태에서 가격을 올릴지, 내릴지 또는 유지할지 결정하는 정책을 학습합니다. 예: "재고가 많으면 가격을 내린다", "경쟁업체 가격이 낮으면 가격을 올린다"
보상(Reward): 보상은 판매량과 이익에 의해 결정되며, 정책이 잘 작동할수록 보상이 커집니다.

정책 학습

정책기반 이터레이션에서는 에이전트가 상태마다 최적의 행동을 결정하는 정책을 학습하는데 초점을 맞춥니다. 예를 들어, 특정 상황에서 가격을 올리는 것이 장기적으로 이익을 최대화할 수 있다고 판단되면, 에이전트는 그 정책을 따릅니다.

2025년 3월 4일 화요일

[강화학습] 모델링 종류

강화학습의 모델링 방법

강화학습의 모델링에는 어떤 것이 있는가?

강화학습(Reinforcement Learning, RL)에서 환경과의 상호작용을 통해 최적의 행동을 학습하기 위해 다양한 모델링 방법이 존재합니다. 주요 방식으로는 모델 기반 (Model-Based)과 모델 프리 (Model-Free)가 있으며, 각각 장단점이 있습니다.

1. 모델 기반 (Model-Based) 강화학습

모델 기반 강화학습은 환경의 동작을 예측할 수 있는 환경 모델을 학습하여 정책을 최적화하는 방식입니다.

환경의 상태 전이 확률 $P(s'|s, a)$과 보상 함수 $R(s, a)$를 모델링
학습된 모델을 활용해 시뮬레이션을 수행하며 정책을 개선
대표적인 알고리즘: Dyna-Q, AlphaGo, MuZero, PILCO

2. 모델 프리 (Model-Free) 강화학습

모델 프리 방식은 환경 모델 없이 직접 경험을 통해 학습하는 방식입니다.

환경과 직접 상호작용하여 데이터 수집
많은 데이터를 필요로 하지만 복잡한 환경에서도 적용 가능
대표적인 알고리즘: Q-learning, DQN, PPO, A2C, SAC

3. 가치 기반 vs 정책 기반 vs Actor-Critic

방법	개념	대표 알고리즘	장점	단점
가치 기반 (Value-Based)	Q-value를 학습하여 최적 행동 선택	Q-learning, DQN	샘플 효율적	고차원 행동 공간에 취약
정책 기반 (Policy-Based)	정책을 직접 최적화	REINFORCE, PPO	연속적 행동에서 강함	샘플 효율성 낮음
Actor-Critic	정책 + 가치 결합	A2C, SAC	가치 평가로 안정적 학습	설계가 복잡함

4. 모델 기반 vs 모델 프리 비교

구분	모델 기반 (Model-Based)	모델 프리 (Model-Free)
환경 모델	환경을 모델링하여 사용	환경 모델 없이 학습
샘플 효율성	높음 (적은 데이터로 학습 가능)	낮음 (많은 데이터 필요)
학습 속도	빠름 (모델을 활용해 예측 가능)	느림 (경험을 직접 쌓아야 함)
적용 가능 환경	모델이 정확하면 강력함	복잡한 환경에서도 적용 가능
예제 알고리즘	Dyna-Q, AlphaGo, MuZero	Q-learning, DQN, PPO, A2C

5. 결론

강화학습에서는 문제의 특성에 따라 모델 기반과 모델 프리 방식을 적절히 선택해야 합니다.

빠르고 효율적인 학습이 필요하면 모델 기반 방식 사용
복잡한 환경에서도 안정적으로 학습하려면 모델 프리 방식 사용

각 방법의 장단점을 이해하고 적절히 적용하면 강화학습을 효과적으로 활용할 수 있습니다.

[강화학습] Actor-Critic Learning

강화학습의 Actor-Critic 학습이란?

강화학습(Reinforcement Learning, RL)은 인공지능이 환경과 상호작용하면서 보상을 최대화하도록 학습하는 방법입니다. 그중에서도 Actor-Critic 학습은 강화학습에서 널리 사용되는 효율적인 알고리즘 중 하나입니다.

1. Actor-Critic의 기본 개념

Actor-Critic 방법은 Actor(행동자)와 Critic(평가자)라는 두 가지 신경망을 사용하여 학습합니다.

Actor (행동자): 현재 상태에서 어떤 행동을 할지를 결정합니다.
Critic (평가자): Actor가 선택한 행동이 얼마나 좋은지를 평가합니다.

즉, Actor는 행동을 결정하고, Critic은 그 행동이 얼마나 좋은지 평가하여 Actor를 개선하는 방식으로 학습이 진행됩니다.

2. Actor-Critic의 동작 원리

Actor-Critic 알고리즘의 학습 과정은 다음과 같습니다.

환경에서 현재 상태(s)를 관찰합니다.
Actor가 현재 상태에서 행동(a)을 결정합니다.
그 행동을 실행하고, 보상(r)과 새로운 상태(s')를 얻습니다.
Critic이 행동의 가치를 평가하고, Actor가 이를 참고하여 정책을 업데이트합니다.
이 과정을 반복하여 점점 더 나은 행동을 학습합니다.

3. Actor-Critic의 장점

정책 기반과 가치 기반의 결합: 정책을 직접 최적화하는 Actor와 가치를 평가하는 Critic을 함께 사용하여 안정적인 학습이 가능합니다.
샘플 효율성 증가: Critic이 가치 평가를 도와주므로 정책을 더 빠르게 개선할 수 있습니다.
고차원 상태에서도 효과적: 복잡한 환경에서도 잘 작동합니다.

4. 간단한 Actor-Critic 코드 (파이썬)

아래는 기본적인 Actor-Critic 학습의 구조를 보여주는 간단한 코드입니다.

import torch
import torch.nn as nn
import torch.optim as optim

class Actor(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(Actor, self).__init__()
        self.fc = nn.Linear(state_dim, action_dim)

    def forward(self, state):
        return torch.softmax(self.fc(state), dim=-1)

class Critic(nn.Module):
    def __init__(self, state_dim):
        super(Critic, self).__init__()
        self.fc = nn.Linear(state_dim, 1)

    def forward(self, state):
        return self.fc(state)

state_dim = 4  # 예제 환경에서 상태의 차원 수
action_dim = 2  # 예제 환경에서 가능한 행동 수

actor = Actor(state_dim, action_dim)
critic = Critic(state_dim)

print("Actor Network:", actor)
print("Critic Network:", critic)

5. 결론

Actor-Critic 학습 방법은 강화학습에서 강력한 기법으로, 많은 최신 인공지능 기술에 사용됩니다. 특히, 정책 기반과 가치 기반의 장점을 모두 활용하여 더 효율적인 학습을 할 수 있습니다.

더 깊이 알고 싶다면 OpenAI Spinning Up의 자료를 참고하는 것도 좋습니다.

이제 여러분도 Actor-Critic을 활용한 강화학습에 도전해보세요!

2025년 3월 3일 월요일

[강화학습] 가치기반 vs. 정책기반 학습

가치기반 학습 vs. 정책기반 학습: 가장 중요한 요소

가치기반 학습 (Value-based Learning)

가치기반 학습은 에이전트가 주어진 상태에서 취할 수 있는 행동들의 가치를 평가하는 것을 중심으로 합니다. 여기서 "가치"란 특정 상태에서 특정 행동을 취했을 때 기대할 수 있는 장기적인 보상의 크기를 의미합니다.

가장 중요한 요소: 가치 함수(Value Function)

가치기반 학습에서 가장 중요한 개념은 가치 함수입니다. 가치 함수는 두 가지 유형으로 나뉩니다:

상태 가치 함수 (V(s)): 상태 s에서 얻을 수 있는 예상 총 보상
행동 가치 함수 (Q(s, a)): 상태 s에서 행동 a를 취했을 때 얻을 수 있는 예상 총 보상

대표적인 알고리즘

가치기반 학습에서는 Q값(행동 가치 함수)을 학습하는 방식이 일반적이며, 대표적인 알고리즘으로는 다음과 같은 방법이 있습니다.

Q-learning: 가치 기반 강화학습에서 가장 널리 사용되는 알고리즘으로, Q값을 업데이트하면서 최적의 행동을 찾아감
Deep Q-Network(DQN): Q-learning을 신경망과 결합하여 고차원 상태 공간에서도 학습이 가능하도록 개선된 기법

가치기반 학습의 장점과 단점

장점: 최적의 정책을 추론할 수 있으며, 탐색과 활용의 균형을 조절할 수 있는 ε-greedy 전략을 적용 가능

단점: 연속적인 행동 공간에서는 Q값을 모두 저장하기 어렵고, 높은 차원의 상태 공간에서는 학습 속도가 느려질 수 있음

정책기반 학습 (Policy-based Learning)

정책기반 학습은 에이전트가 최적의 정책(π)을 직접 학습하는 방식입니다. 즉, 상태 s가 주어졌을 때, 어떤 행동 a를 취할 확률을 결정하는 함수인 정책 π(a|s)를 학습하는 것이 목표입니다.

가장 중요한 요소: 정책(Policy)

정책기반 학습에서는 정책 함수(Policy Function)가 핵심입니다. 정책은 두 가지 방식으로 표현될 수 있습니다:

확률적 정책 (Stochastic Policy): 특정 상태에서 여러 행동을 취할 확률을 결정 (π(a|s) = P(a|s))
결정적 정책 (Deterministic Policy): 특정 상태에서 항상 동일한 행동을 선택 (π(s) = a)

대표적인 알고리즘

정책기반 학습에서 사용되는 대표적인 알고리즘은 다음과 같습니다.

정책 경사법 (Policy Gradient): 정책을 직접 최적화하는 방식으로, 정책의 기울기를 계산하여 업데이트
REINFORCE: 샘플링된 행동을 기반으로 정책을 업데이트하는 대표적인 정책 경사 기법
Actor-Critic: 정책기반 학습과 가치기반 학습을 결합하여 더 안정적인 학습이 가능

정책기반 학습의 장점과 단점

장점: 연속적인 행동 공간에서도 적용이 가능하며, 탐색 전략이 내재되어 있어 학습이 빠름

단점: 정책이 직접 최적화되므로 학습이 불안정할 수 있으며, 수렴 속도가 느릴 수 있음

결론: 가치기반 vs. 정책기반 학습

가치기반 학습과 정책기반 학습은 각각의 장단점이 있으며, 사용 환경에 따라 적절한 방식을 선택해야 합니다.

언제 가치기반 학습을 사용할까?

이산적(discrete) 행동 공간을 다룰 때
보상을 명확하게 평가할 수 있을 때
Q-learning과 같은 방법으로 행동을 최적화할 수 있을 때

언제 정책기반 학습을 사용할까?

연속적인(continuous) 행동 공간을 다룰 때
정확한 보상 평가가 어려운 환경에서 정책을 직접 최적화할 때
로봇 제어와 같이 미분 가능한 정책이 필요한 경우

최근 강화학습에서는 가치기반 학습과 정책기반 학습을 결합한 Actor-Critic 방법이 널리 사용되며, 이를 통해 두 가지 방식의 장점을 동시에 활용할 수 있습니다.

[강화학습] 정책이터레이션과 가치이터레이션의 차이점

강화학습에서 정책 이터레이션과 가치 이터레이션의 차이점

강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 배우는 과정입니다. 이 과정에서 "정책"과 "가치 함수"라는 두 가지 중요한 개념이 등장합니다. 정책 이터레이션(Policy Iteration)과 가치 이터레이션(Value Iteration)은 이 두 개념을 활용하여 최적 정책을 찾기 위한 알고리즘입니다. 두 알고리즘은 비슷한 목적을 가지고 있지만, 그 방식에는 차이가 있습니다.

1. 정책 이터레이션(Policy Iteration)

정책 이터레이션은 "정책 평가"와 "정책 개선"을 번갈아 가며 반복하여 최적의 정책을 찾는 방법입니다. 정책은 에이전트가 각 상태에서 취할 행동을 정의한 규칙입니다. 정책 이터레이션은 다음 두 단계로 구성됩니다:

정책 평가(Policy Evaluation): 주어진 정책에 대해 각 상태에서의 가치를 계산합니다. 이때, 상태 가치 함수 $V^\pi(s)$를 구하게 됩니다.
정책 개선(Policy Improvement): 현재 가치 함수에 기반하여, 각 상태에서 최적의 행동을 선택하고, 정책을 개선합니다.

정책 이터레이션은 이 두 단계를 반복하면서 점점 더 나은 정책을 찾게 됩니다. 이 방식은 비교적 직관적이고, 작은 상태 공간에서는 빠르게 수렴할 수 있습니다.

2. 가치 이터레이션(Value Iteration)

가치 이터레이션은 가치 함수 $V(s)$를 직접 갱신하여 최적 정책을 찾는 알고리즘입니다. 정책 이터레이션과 달리, 가치 이터레이션은 정책을 바로 개선하는 대신, 각 상태에서의 가치를 반복적으로 업데이트합니다. 이 알고리즘의 주요 단계는 다음과 같습니다:

가치 함수 갱신(Value Update): 각 상태에 대해 벨만 기대 방정식을 사용하여 가치 함수를 갱신합니다. 이때, 정책은 암묵적으로 최적화됩니다.

가치 이터레이션은 정책을 명시적으로 개선하지 않고, 대신 가치 함수가 충분히 수렴할 때까지 반복합니다. 가치 함수가 수렴되면, 그때서야 최적 정책을 도출할 수 있습니다.

3. 정책 이터레이션과 가치 이터레이션의 차이점

정책 이터레이션과 가치 이터레이션의 주요 차이점은 정책 개선이 언제 이루어지는지에 있습니다:

구분	정책 이터레이션	가치 이터레이션
정책 평가	정책 평가 단계에서 가치 함수 $V^\pi(s)$를 구합니다.	정책을 직접 평가하지 않고, 가치 함수만 업데이트합니다.
정책 개선	정책 개선 단계에서 각 상태에서의 최적 행동을 선택하여 정책을 개선합니다.	가치 함수가 수렴할 때까지 반복하고, 그 후에 최적 정책을 도출합니다.
수렴 속도	작은 상태 공간에서는 빠르게 수렴하지만, 큰 상태 공간에서는 느릴 수 있습니다.	상태 공간이 크더라도, 점진적으로 수렴하지만 더 느릴 수 있습니다.
장점	정책과 가치 함수가 분리되어 있어 이해하기 쉬운 구조입니다.	가치 함수만 업데이트하므로 메모리 사용이 상대적으로 적습니다.

4. 요약

정책 이터레이션과 가치 이터레이션은 최적 정책을 찾기 위한 두 가지 방법입니다. 정책 이터레이션은 정책을 명시적으로 평가하고 개선하는 반면, 가치 이터레이션은 가치 함수만을 갱신하며 정책을 암묵적으로 개선합니다. 둘 다 강력한 알고리즘이지만, 상태 공간이 크거나 복잡할 때는 다른 방식이 더 효율적일 수 있습니다.

[강화학습] 정책 이터레이션

강화학습에서 정책 이터레이션(Policy Iteration) 설명

강화학습에서 정책 이터레이션(Policy Iteration)

강화학습에서 정책 이터레이션(Policy Iteration)은 최적의 정책을 구하기 위한 알고리즘입니다. 이 알고리즘은 주어진 환경에서 최적 정책을 찾아내기 위해, 주기적으로 두 가지 주요 단계를 반복합니다. 첫 번째는 정책 평가(Policy Evaluation) 단계이고, 두 번째는 정책 개선(Policy Improvement) 단계입니다. 정책 이터레이션은 가치 반복(Value Iteration)보다 더 빠르게 수렴할 수 있는 경우가 많습니다.

1. 정책 이터레이션의 개념

정책 이터레이션은 두 가지 중요한 단계를 반복적으로 실행합니다. 그 과정은 다음과 같습니다:

정책 평가(Policy Evaluation): 주어진 정책에 대한 가치 함수를 계산합니다. 이 단계에서는 현재 정책이 각 상태에서 얻을 수 있는 예상 보상값을 계산합니다.
정책 개선(Policy Improvement): 가치 함수가 주어졌을 때, 각 상태에서 최적의 행동을 선택하여 정책을 개선합니다.

2. 정책 이터레이션 알고리즘

정책 이터레이션 알고리즘은 다음과 같은 단계로 진행됩니다:

Step 1: 초기 정책 $ \pi_0 $를 설정합니다.
Step 2: 주어진 정책 $ \pi $에 대해 가치 함수 $ V^{\pi} $를 계산합니다. (정책 평가 단계)
Step 3: 가치 함수 $ V^{\pi} $에 기반하여 각 상태에서 최적 행동을 선택하고 정책을 개선합니다. (정책 개선 단계)
Step 4: 정책이 더 이상 변경되지 않을 때까지, 정책 평가와 정책 개선을 반복합니다.

3. 정책 평가 (Policy Evaluation)

정책 평가 단계에서는 주어진 정책에 대한 각 상태의 가치를 계산합니다. 이때 벨만 기대 방정식(Bellman Expectation Equation)을 사용하여, 각 상태에서 얻을 수 있는 보상의 총합을 계산합니다. 벨만 기대 방정식은 다음과 같습니다:

$$ V^{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^{\pi}(s') \right] $$

여기서:

$ V^{\pi}(s) $: 상태 $ s $에서의 정책 $ \pi $에 대한 가치 함수
$ \pi(a|s) $: 상태 $ s $에서 행동 $ a $를 선택할 확률
$ P(s'|s,a) $: 상태 $ s $에서 행동 $ a $를 취했을 때 상태 $ s' $로 전이될 확률
$ R(s,a,s') $: 상태 $ s $에서 행동 $ a $를 취하고 상태 $ s' $로 전이될 때 얻는 보상
$ \gamma $: 할인율 (0과 1 사이의 값)

4. 정책 개선 (Policy Improvement)

정책 개선 단계에서는 정책 평가에서 계산된 가치 함수 $ V^{\pi} $를 사용하여 각 상태에서 최적의 행동을 선택합니다. 즉, 주어진 가치 함수에 대해 각 상태에서 최적 행동을 찾고, 그 행동을 새로운 정책에 반영합니다. 이때 정책 개선은 다음과 같은 방식으로 이루어집니다:

$$ \pi'(s) = \arg\max_{a} \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^{\pi}(s') \right] $$

여기서 $ \pi'(s) $는 상태 $ s $에서의 최적 행동입니다. 정책 개선은 가치 함수가 수렴한 후, 최적의 정책을 도출하는 과정입니다.

5. 정책 이터레이션 알고리즘의 수학적 표현

정책 이터레이션의 알고리즘을 수학적으로 표현하면 다음과 같습니다:


# 정책 이터레이션 알고리즘 (Python)
import numpy as np

# 상태와 행동 정의
states = [0, 1, 2, 3]
actions = [0, 1]
P = {...}  # 상태 전이 확률
R = {...}  # 보상 함수
gamma = 0.9  # 할인율
theta = 1e-6  # 수렴 기준

# 초기 정책과 가치 함수
policy = np.zeros(len(states), dtype=int)
V = np.zeros(len(states))

def policy_evaluation(policy, V, P, R, gamma, theta):
    while True:
        delta = 0
        for s in range(len(states)):
            v = V[s]
            V[s] = sum(P[s, a] * (R[s, a] + gamma * V[s_next]) for a in actions)
            delta = max(delta, abs(v - V[s]))
        if delta < theta:
            break
    return V

def policy_improvement(V, P, R, gamma):
    policy_stable = True
    for s in range(len(states)):
        old_action = policy[s]
        policy[s] = np.argmax([sum(P[s, a] * (R[s, a] + gamma * V[s_next]) for s_next in range(len(states))) for a in actions])
        if old_action != policy[s]:
            policy_stable = False
    return policy_stable

def policy_iteration(P, R, gamma, theta):
    policy = np.zeros(len(states), dtype=int)
    V = np.zeros(len(states))

    while True:
        V = policy_evaluation(policy, V, P, R, gamma, theta)
        policy_stable = policy_improvement(V, P, R, gamma)
        if policy_stable:
            break

    return policy, V

policy, V = policy_iteration(P, R, gamma, theta)
print("최적 정책:", policy)
print("최적 가치 함수:", V)

6. 정책 이터레이션의 장점과 단점

장점

정책 평가와 개선이 분리되어 있어, 큰 상태 공간에서도 안정적으로 작동할 수 있습니다.
정책 이터레이션은 빠르게 최적 정책에 수렴할 수 있습니다.

단점

정책 평가 단계에서 수학적 계산이 많이 필요하여, 계산 비용이 높을 수 있습니다.
상태 공간이 매우 클 경우 메모리와 계산 자원이 많이 소모될 수 있습니다.

7. 결론

정책 이터레이션은 강화학습에서 최적 정책을 찾기 위한 중요한 알고리즘입니다. 정책 평가와 정책 개선의 두 단계를 반복함으로써, 에이전트는 점차 최적 정책을 학습할 수 있습니다. 가치 반복보다 더 효율적인 경우도 있지만, 상태 공간이 커지면 계산 비용이 높아질 수 있다는 단점이 있습니다.

	DQN	Double DQN (DDQN)
Q-value 계산	\(\max Q\) 사용	\(\arg\max Q\)로 액션 선택 후, 타겟 네트워크로 평가
과대평가 문제	있음 (Q-value bias 발생)	줄어듦 (과대평가 방지)
학습 안정성	불안정할 수 있음	더 안정적
성능	특정 환경에서 성능 저하 가능	일반적으로 더 나은 성능

구분	정책 이터레이션	가치 이터레이션
정책 평가	정책 평가 단계에서 가치 함수 \(V^\pi(s)\)를 구합니다.	정책을 직접 평가하지 않고, 가치 함수만 업데이트합니다.
정책 개선	정책 개선 단계에서 각 상태에서의 최적 행동을 선택하여 정책을 개선합니다.	가치 함수가 수렴할 때까지 반복하고, 그 후에 최적 정책을 도출합니다.
수렴 속도	작은 상태 공간에서는 빠르게 수렴하지만, 큰 상태 공간에서는 느릴 수 있습니다.	상태 공간이 크더라도, 점진적으로 수렴하지만 더 느릴 수 있습니다.
장점	정책과 가치 함수가 분리되어 있어 이해하기 쉬운 구조입니다.	가치 함수만 업데이트하므로 메모리 사용이 상대적으로 적습니다.