Tech & Traditions: Dueling DQN

2025년 3월 9일 일요일

DQN과 Dueling DQN의 차이점-강화학습

DQN과 Dueling DQN의 차이점

**DQN(Deep Q-Network)**과 **Dueling DQN**은 모두 강화학습에서 **Q-learning**의 확장으로, **딥러닝**을 이용해 상태-행동 값 함수인 Q함수를 근사합니다. 하지만, **Dueling DQN**은 **DQN**의 성능을 향상시키기 위해 구조적으로 개선된 버전입니다. 이 두 알고리즘의 차이를 이론과 예제를 통해 설명하겠습니다.

Ⅰ. DQN (Deep Q-Network)

DQN은 **Q-learning**을 딥러닝 모델을 이용하여 확장한 방법입니다. **Q-learning**은 에이전트가 각 상태에서 취할 수 있는 행동에 대한 가치를 추정하는 알고리즘입니다. 이를 통해, 에이전트는 최적의 행동을 선택하여 장기적인 보상을 극대화하려고 합니다.

Q함수: Q함수는 특정 상태 $ s $에서 특정 행동 $ a $를 취할 때 예상되는 장기적인 보상입니다.

$$ Q(s, a) = E[R_t | s_t = s, a_t = a] $$

딥러닝 모델: DQN은 **신경망**을 사용하여 상태 $ s $에서 각 행동 $ a $에 대한 Q값을 추정합니다. 이 신경망을 학습시키기 위해, 에이전트는 경험을 통해 얻은 상태, 행동, 보상, 다음 상태를 이용해 Q값을 업데이트합니다.

경험 재생(Experience Replay)과 타깃 네트워크(Target Network): DQN은 경험 재생과 타깃 네트워크를 사용하여 학습을 안정화시킵니다.

Ⅱ. Dueling DQN

Dueling DQN은 DQN의 성능을 개선하기 위해 **Q함수**를 **두 개의 부분으로 분리**하는 방법을 제시합니다. Dueling DQN은 **상태의 가치**와 **행동의 우선성**을 따로 학습하여, **Q값을 더 효율적으로 추정**할 수 있도록 만듭니다.

상태의 가치 (Value Function): 각 상태가 얼마나 좋은지, 즉 특정 상태에서 얻을 수 있는 **최적 보상의 예상값**입니다.

$$ V(s) = \max_a Q(s, a) $$

행동의 우선성 (Advantage Function): 특정 행동이 현재 상태에서 얼마나 더 우수한지에 대한 **상대적인 가치**입니다. 이를 통해, 특정 행동이 다른 행동에 비해 얼마나 우수한지 평가합니다.

$$ A(s, a) = Q(s, a) - V(s) $$

Q값 추정: Dueling DQN은 두 개의 네트워크를 분리하여, 상태 $ s $에 대한 가치 $ V(s) $와 각 행동 $ a $의 우선성 $ A(s, a) $를 구한 후, 이를 결합하여 Q값을 구합니다.

$$ Q(s, a) = V(s) + A(s, a) $$

Ⅲ. DQN과 Dueling DQN의 차이점

특징	DQN	Dueling DQN
Q값 추정	하나의 신경망을 사용하여 상태-행동 쌍에 대한 Q값을 예측	상태 가치와 행동 우선성을 분리하여 Q값을 예측
상태-행동 쌍의 중요성	모든 행동에 대해 동일한 중요도를 가짐	상태에서 중요한 부분과 행동에서 중요한 부분을 구분하여 학습
효율성	상태-행동 가치 추정이 한정적일 수 있음	더 정확한 Q값 추정, 특히 상태가 중요한 환경에서는 더 효율적
학습 안정성	보상 신호에 의존하며, 학습이 불안정할 수 있음	상태의 가치와 행동 우선성을 구분하여 더 안정적인 학습 가능
수렴 속도	느림	빠르고 안정적
적용 사례	정책을 직접 학습하는 데 적합	상태가 중요한 환경에서 효과적, 더 정확한 행동 선택 가능

Ⅳ. DQN과 Dueling DQN의 예시 비교

체스 예시:

- **DQN**: 체스 게임에서 각 상태에서 가능한 모든 수에 대해 Q값을 계산하고, 가장 높은 Q값을 가진 수를 선택합니다. 이때, 특정 상태에서 행동의 중요도가 명확하지 않으면, Q값이 정확히 추정되지 않아서 잘못된 수를 선택할 가능성이 있습니다.

- **Dueling DQN**: 체스에서 특정 상태가 매우 중요하고, 그 상태에서 어떤 수를 두는 것이 더 중요한지를 구별합니다. 예를 들어, 게임이 끝나가는 상황에서는 **상태의 가치**가 강조되고, 중간 단계에서는 **행동의 우선성**이 중요해지며, 이는 더 정확한 행동을 선택하도록 만듭니다.

Ⅴ. 결론

DQN은 신경망을 사용하여 Q값을 추정하는 기본적인 방법으로, 각 상태-행동 쌍에 대해 Q값을 예측합니다.

Dueling DQN은 Q값을 상태의 가치와 행동의 우선성으로 분리하여 **보다 효율적이고 정확한 Q값 추정**을 가능하게 합니다. 특히, **상태가 중요한 환경**에서는 Dueling DQN이 더 우수한 성능을 보입니다.

Dueling DQN은 DQN의 한계를 보완하고 성능을 향상시킬 수 있는 강력한 알고리즘으로, **복잡한 환경에서 더 안정적이고 빠른 학습을 가능하게** 합니다.