2025년 3월 8일 토요일

강화학습: 온폴리시(On-policy)와 오프폴리시(Off-policy) 학습

강화학습에서 에이전트는 주어진 환경에서 보상을 최대화하는 방향으로 행동을 학습합니다. 이때 학습 방식에 따라 온폴리시(On-policy)와 오프폴리시(Off-policy)로 나뉩니다.

1. 온폴리시(On-policy) 학습

온폴리시 학습은 현재 실행 중인 정책을 그대로 개선하는 방식입니다. 즉, 에이전트가 행동을 선택하는 정책과 학습하는 정책이 동일합니다.

예제: 축구 선수와 코치

선수는 현재 배우고 있는 기술을 연습합니다.
코치는 선수의 플레이를 평가하고 피드백을 줍니다.
선수는 코치의 조언을 바탕으로 점진적으로 발전합니다.

즉, 현재 사용 중인 행동 방식을 개선하면서 학습하는 방식이 온폴리시입니다.

대표 알고리즘: SARSA

2. 오프폴리시(Off-policy) 학습

오프폴리시 학습은 현재 실행하는 정책과 학습하는 정책이 다를 수 있는 방식입니다. 과거 데이터를 활용하여 학습할 수도 있습니다.

예제: 축구 선수와 경기 영상 분석

선수는 유명한 선수들의 경기 영상을 보며 학습합니다.
코치는 다양한 플레이 스타일을 분석하여 지도합니다.
선수는 과거 데이터를 바탕으로 새로운 전략을 연습합니다.

즉, 기존에 경험한 데이터나 다른 사람이 했던 행동을 활용하는 방식이 오프폴리시입니다.

대표 알고리즘: Q-learning, DQN

3. 비교: 온폴리시 vs. 오프폴리시

구분	온폴리시(On-policy)	오프폴리시(Off-policy)
학습 방식	현재 사용하는 정책을 개선	과거 데이터나 다른 정책을 활용
예제	축구 코치가 실전 플레이를 지도	경기 영상을 보며 학습
대표 알고리즘	SARSA	Q-learning, DQN
장점	안정적인 학습, 정책 일관성 유지	과거 경험을 활용, 탐색 범위가 넓음
단점	탐색이 제한적, 효율성이 떨어질 수 있음	훈련이 어려울 수 있음, 과적합 위험

4. 어떤 방식을 선택해야 할까?

📌 실시간 조정이 필요하고, 안정적인 학습을 원한다면 → 온폴리시
📌 과거 데이터를 활용하고, 더 다양한 시도를 해보고 싶다면 → 오프폴리시

이처럼 온폴리시와 오프폴리시는 학습 방식의 차이가 있으며, 문제의 특성에 따라 적절한 방식을 선택하는 것이 중요합니다. 😊

2025년 3월 7일 금요일

강화학습의 모델기반 vs. 모델프리 학습

강화학습의 모델 기반 vs 모델 프리 학습

강화학습(Reinforcement Learning, RL)은 환경과 상호작용하면서 보상을 최대화하는 방식으로 학습하는 방법입니다. 이때 학습 방식에 따라 크게 모델 기반(Model-based) 학습과 모델 프리(Model-free) 학습으로 나뉩니다.

1. 모델 기반 학습 (Model-based Learning)

모델 기반 학습은 환경의 동작을 예측하는 모델을 만들어서 학습하는 방법입니다. 즉, "이 행동을 하면 어떤 결과가 나올까?"를 미리 예측하는 모델을 활용합니다.

✔ 특징

환경 모델을 활용 → 실제 행동 전에 시뮬레이션 가능
학습 속도가 빠를 수 있음
환경 모델이 부정확하면 잘못된 예측 가능

✔ 예제

체스를 둘 때, 상대의 다음 수를 예측하면서 학습
날씨 예측 모델을 만들어 농작물 재배 전략 학습

2. 모델 프리 학습 (Model-free Learning)

모델 프리 학습은 환경 모델 없이, 직접 행동을 해보고 얻은 보상을 기반으로 학습하는 방법입니다. 즉, "이 행동을 하면 결과가 어땠지?"를 경험을 통해 배웁니다.

✔ 특징

환경 모델이 필요 없어서 단순함
많은 시행착오를 거치며 학습해야 해서 시간이 오래 걸릴 수 있음
Q-learning, SARSA, 정책 기반 방법 (Policy Gradient) 등이 대표적인 모델 프리 방법

✔ 예제

아기가 걸음을 배우는 과정 (직접 넘어지고 다시 시도하며 학습)
알파고(AlphaGo)가 바둑을 학습할 때, 수많은 게임을 해보면서 좋은 수를 찾아가는 방식

3. 모델 기반 vs 모델 프리 비교

구분	모델 기반 학습	모델 프리 학습
환경 모델	필요함 (예측 가능)	필요 없음 (직접 경험)
학습 속도	빠를 수 있음	상대적으로 느림
활용 예시	시뮬레이션이 가능한 문제 (체스, 로봇)	복잡한 환경에서 시행착오를 통한 학습 (게임, 자율주행)

결론

만약 환경에 대한 정보를 어느 정도 알고 있다면 "모델 기반 학습"이 더 빠를 수 있고, 반대로 환경을 잘 모른다면 "모델 프리 학습"을 통해 직접 경험하며 배워야 합니다.

어떤 방법을 사용할지는 문제의 성격과 목적에 따라 달라집니다!

액터-크리틱(Actor-Critic) 알고리즘이란?

액터-크리틱(Actor-Critic) 알고리즘은 강화학습에서 정책 기반과 가치 기반 방법을 결합한 하이브리드 모델입니다. 액터-크리틱은 두 가지 주요 컴포넌트인 액터(Actor)와 크리틱(Critic)을 사용하여, 에이전트가 환경과 상호작용하면서 최적의 행동을 선택할 수 있도록 돕습니다.

액터-크리틱을 사용해야 하는 이유

액터-크리틱 알고리즘을 사용하는 이유는 다음과 같습니다:

1. 큰 상태공간과 행동공간을 처리할 때

상태공간(state space)과 행동공간(action space)이 매우 클 경우, 정책 기반 방법이나 가치 기반 방법만으로는 학습이 매우 비효율적이거나 느려질 수 있습니다. 액터-크리틱 알고리즘은 정책을 확률적으로 업데이트하고, 가치 함수를 함께 사용하여, 상태공간과 행동공간이 클 때도 더 효율적으로 학습할 수 있습니다. 액터는 연속적인 상태에서도 자연스럽게 정책을 결정할 수 있으며, 크리틱은 가치 추정을 통해 액터가 잘못된 행동을 피할 수 있도록 돕습니다.

2. 연속적인 행동공간에서 효율적인 학습

연속적인 행동공간을 다뤄야 하는 경우, 액터-크리틱 알고리즘은 정책을 연속적으로 학습할 수 있어 연속적인 행동공간에서도 효율적으로 학습이 가능합니다. 예를 들어, 로봇 제어 문제에서 로봇의 이동을 제어하는 데 있어 속도나 각도를 연속적으로 조정해야 한다면, 액터-크리틱은 각 상태에서 적합한 행동을 연속적으로 결정하고, 크리틱은 그 행동이 얼마나 효과적인지를 평가하여 피드백을 제공합니다.

3. 보상 지연 문제 해결

강화학습에서 보상 지연(delay in reward) 문제는 중요한 도전 과제 중 하나입니다. 즉, 에이전트가 취한 행동이 즉각적인 보상으로 이어지지 않고, 여러 단계 후에야 보상을 받을 때 문제가 발생합니다. 이 경우, 정책 기반 방법은 보상을 받기 전에 여러 가지 행동을 취했기 때문에 학습이 불안정해질 수 있습니다. 액터-크리틱 알고리즘은 크리틱이 가치 함수를 계산하고, 그 정보를 액터에게 피드백으로 제공하여 보상이 지연되더라도 정확한 정책 업데이트를 할 수 있도록 돕습니다.

4. 정책과 가치 함수를 동시에 학습

액터-크리틱 알고리즘은 정책과 가치를 동시에 학습할 수 있기 때문에 학습의 속도와 안정성이 높아집니다. 정책 기반 방법은 연속적인 공간에서 잘 작동하지만, 가치 기반 방법은 더 빠른 학습을 가능하게 합니다. 액터-크리틱은 두 가지를 결합하여 더 빠르고 효율적인 학습을 가능하게 합니다. 액터는 행동을 선택하고, 크리틱은 그 행동의 가치를 평가하면서 두 모델이 서로 보완적으로 학습을 진행합니다.

5. 복잡한 환경에서의 안정성과 성능

액터-크리틱 알고리즘은 상태-행동의 복잡한 관계를 잘 처리할 수 있기 때문에 복잡한 환경에서 효과적입니다. 예를 들어, 동적 환경에서 여러 변수들이 상호작용하는 상황에서 액터-크리틱은 매우 유리합니다. 크리틱은 환경에 대한 상태-행동 가치 추정을 통해 정책이 어떻게 개선될지를 알려주기 때문에, 복잡한 상호작용을 처리하는 데 유리합니다. 액터는 여러 가지 행동을 시도하면서 최적의 행동을 찾아내고, 크리틱은 이들에 대한 평가를 통해 안정적인 학습을 도와줍니다.

결론

액터-크리틱 알고리즘은 상태공간과 행동공간이 큰 경우나 연속적인 행동공간에서 매우 유용하며, 정책과 가치를 동시에 학습하 장점으로 복잡한 환경에서도 안정적이고 효율적인 학습을 제공합니다. 다른 강화학습 알고리즘들과 비교했을 때, 액터-크리틱은 두 가지 중요한 요소인 정책과 가치를 동시에 학습하여 더 빠르고 안정적인 성능을 보장할 수 있습니다.

Actor-Critic 강화학습 알고리즘 - 이론과 실제 적용

액터-크리틱 강화학습 알고리즘: 이론과 실제 적용

액터-크리틱(Actor-Critic) 강화학습 알고리즘

액터-크리틱(Actor-Critic) 알고리즘이란?

액터-크리틱(Actor-Critic) 알고리즘은 강화학습(Reinforcement Learning)에서 에이전트가 환경과 상호작용하면서 최적의 정책을 학습하는 방법으로, **정책 기반**과 **가치 기반** 방법의 장점을 결합한 하이브리드 모델입니다. 액터-크리틱 알고리즘은 두 가지 주요 요소인 **액터(Actor)**와 **크리틱(Critic)**을 사용하여, 에이전트가 더 빠르고 효율적으로 최적의 행동을 찾을 수 있도록 돕습니다.

액터(Actor)

액터는 주어진 상태에서 **행동을 선택**하는 부분입니다. 액터는 상태에서 취할 행동을 결정하고, 이 결정은 확률적 방법으로 이루어집니다. 액터는 **정책**을 학습하며, 이 정책은 에이전트가 환경과 상호작용하면서 점차적으로 개선됩니다.

크리틱(Critic)

크리틱은 액터가 선택한 행동에 대해 **가치 평가**를 담당합니다. 크리틱은 액터가 취한 행동이 얼마나 좋은지를 평가하고, 이를 통해 에이전트에게 피드백을 제공합니다. 크리틱은 **가치 함수(Value Function)**를 사용하여 상태-행동 쌍의 장기적인 가치를 추정합니다.

액터-크리틱 알고리즘의 학습 과정

액터-크리틱 알고리즘은 반복적인 과정으로 학습합니다. 아래의 과정을 통해 에이전트는 점차 최적의 정책을 학습합니다:

**상태를 관찰**: 에이전트는 환경의 현재 상태를 관찰합니다.
**행동을 선택**: 액터는 상태에서 취할 행동을 확률적으로 결정합니다.
**행동을 실행**: 액터가 선택한 행동을 실행하고, 환경은 새로운 상태와 보상을 반환합니다.
**보상 계산**: 크리틱은 새로운 상태와 행동에 대해 얻어진 보상을 바탕으로 가치를 계산합니다.
**피드백 전달**: 크리틱은 계산된 가치를 액터에게 전달하여 정책을 개선하도록 돕습니다.
**정책 업데이트**: 액터는 크리틱의 피드백을 반영하여 정책을 업데이트합니다.

액터-크리틱 알고리즘을 사용하는 이유

액터-크리틱 알고리즘은 다음과 같은 경우에 특히 유용합니다:

큰 상태공간과 행동공간 처리: 액터-크리틱은 상태공간과 행동공간이 매우 클 때도 효율적으로 학습할 수 있습니다. 가치 함수와 정책을 동시에 학습하여 빠르고 안정적으로 최적의 행동을 선택할 수 있습니다.
연속적인 행동공간에서 학습: 액터-크리틱은 연속적인 행동공간에서 잘 작동하여, 로봇 제어와 같은 연속적인 값을 가진 문제에서 유리합니다.
보상 지연 문제 해결: 보상이 지연되는 환경에서도 크리틱의 가치 추정을 통해 정책을 안정적으로 개선할 수 있습니다.
정책과 가치 함수를 동시에 학습: 액터와 크리틱은 각각 정책과 가치를 동시에 학습하며, 이를 통해 더욱 효율적으로 최적 정책을 찾을 수 있습니다.

액터-크리틱 알고리즘의 장점과 단점

장점

정책과 가치를 동시에 학습하여 빠르고 안정적인 학습을 지원합니다.
큰 상태공간과 행동공간에서도 효율적으로 학습할 수 있습니다.
연속적인 행동공간에서 잘 작동하며, 로봇 제어와 같은 복잡한 문제에 유리합니다.

단점

액터와 크리틱을 동시에 학습해야 하기 때문에 구현이 복잡할 수 있습니다.
하이퍼파라미터 튜닝이 어려울 수 있으며, 학습이 불안정할 수 있습니다.

액터-크리틱 알고리즘을 활용한 온라인 쇼핑몰 가격 최적화 예제

온라인 쇼핑몰에서 가격 최적화는 매우 중요한 문제입니다. 고객의 구매 패턴, 시장 동향, 경쟁사의 가격 등을 고려하여 최적의 가격을 설정하는 것이 목표입니다. 액터-크리틱 알고리즘을 활용하면, 에이전트가 각 상태에 대해 최적의 가격을 설정할 수 있습니다. 예를 들어:

**상태(State)**: 상품의 수요, 재고, 경쟁사의 가격 등 다양한 환경 요소들.
**행동(Action)**: 가격을 설정하는 행동. 예를 들어, 가격을 10%, 20% 인상 또는 인하.
**보상(Reward)**: 고객의 반응에 따른 판매 수익.

액터-크리틱 알고리즘은 고객의 구매 패턴과 시장 상황을 고려하여, **정책**을 학습하고 **가격**을 최적화합니다. 크리틱은 액터가 선택한 가격이 얼마나 효과적인지 평가하고, 액터는 이를 바탕으로 더 나은 가격을 설정하도록 학습합니다.

Actor-Critic 강화학습 - 온라인 쇼핑몰 가격 최적화

액터-크리틱 강화학습을 활용한 온라인 쇼핑몰 가격 최적화

강화학습(Reinforcement Learning, RL)은 어떤 환경에서 에이전트(Agent)가 최적의 행동을 선택하여 보상을 최대화하는 방법을 학습하는 알고리즘입니다. 이 방법은 주로 게임, 로봇 제어, 추천 시스템 등 다양한 분야에 적용됩니다. 이번에는 액터-크리틱(Actor-Critic) 강화학습을 통해 온라인 쇼핑몰에서 가격을 최적화하는 방법을 알아보겠습니다.

액터-크리틱 강화학습 이해하기

액터-크리틱(Actor-Critic)은 두 가지 주요 구성 요소인 액터(Actor)와 크리틱(Critic)을 사용하여 정책을 학습하는 강화학습 알고리즘입니다.

액터(Actor): 정책을 담당하는 부분입니다. 현재 상태에서 어떤 행동을 취할지를 결정합니다.
크리틱(Critic): 액터가 취한 행동에 대해 평가하는 부분입니다. 액터가 선택한 행동의 가치(즉, 보상)가 얼마나 좋은지를 판단합니다.

이 두 구성 요소가 함께 작동하여 에이전트가 환경에서 최적의 전략을 찾아가도록 도와줍니다.

온라인 쇼핑몰 가격 최적화 문제

온라인 쇼핑몰의 가격을 최적화하려는 목표는 주어진 상품에 대해 최적의 가격을 찾는 것입니다. 이는 소비자들이 특정 가격에 대해 얼마나 반응할지 예측하고, 이를 기반으로 최적의 가격을 설정하는 문제입니다.

문제 설정 예시

상태(State): 현재 상품의 재고 수준, 판매량, 경쟁사의 가격 등
행동(Action): 상품의 가격을 설정하는 것 (예: 가격을 10% 올리거나 내리기)
보상(Reward): 판매된 상품의 이익, 즉 가격과 판매량에 기반한 수익

목표는 쇼핑몰이 상품 가격을 설정할 때, 최적의 가격을 찾아 최대 이익을 얻는 것입니다.

액터-크리틱을 사용한 가격 최적화 알고리즘

강화학습을 통해 최적의 가격을 설정하려면, 에이전트가 각 상태에서 어떤 가격을 설정할지 결정해야 합니다. 액터-크리틱 알고리즘을 통해 에이전트는 판매량이나 가격 변화에 따라 최적의 가격을 학습해 나갈 수 있습니다. 이를 통해 시간이 지나면서 점점 더 최적화된 가격을 제시할 수 있게 됩니다.

"성공적인 가격 최적화는 시간이 지나면서 지속적으로 이루어지는 학습의 결과입니다." - 액터-크리틱 강화학습

2025년 3월 6일 목요일

정책기반 이터레이션 예제 - 강화학습

정책기반 이터레이션: 에이전트가 최적의 행동을 결정하는 과정

정책기반 이터레이션이란?

정책기반 이터레이션은 강화학습의 한 방법으로, 에이전트가 각 상태에서 어떤 행동을 해야 하는지 직접 학습하는 방식입니다. 이 방법은 정책(Policy)을 학습하는 데 초점을 두고 있으며, 각 상태에서 취할 최적의 행동을 결정합니다.

정책기반 이터레이션 예제

이 예제에서는 온라인 쇼핑몰에서 판매하는 제품의 가격을 어떻게 결정할지에 대해 에이전트가 학습하는 상황을 상상해봅시다.

1) 상태(State)

에이전트는 주어진 상태에서 가격을 조정하는 방법을 결정해야 합니다. 이 상태는 쇼핑몰의 다양한 정보를 포함할 수 있습니다.

현재 가격: 예: 50달러
재고량: 예: 100개
판매 수요: 예: 하루 판매량 10개
경쟁업체 가격: 예: 45달러

2) 행동(Action)

에이전트는 상태에 따라 할 수 있는 행동을 취합니다. 이 행동은 가격을 올리거나 내리거나 유지하는 것입니다.

가격 올리기: 예: 가격 5달러 인상
가격 내리기: 예: 가격 5달러 인하
가격 유지: 예: 가격 그대로 유지

3) 보상(Reward)

가격을 올리거나 내리거나 유지할 때마다 보상이 주어집니다. 보상은 판매량과 이익에 의해 결정됩니다.

가격을 올리면 판매량이 줄어들어 보상이 적을 수 있습니다.
가격을 내리면 판매량이 늘어나지만, 이익은 적어질 수 있습니다.
가격을 유지하면 판매량과 이익이 안정적으로 유지될 수 있습니다.

4) 정책(Policy)

정책은 각 상태에서 취할 최적의 행동을 결정하는 규칙입니다. 예를 들어, "상태가 '재고가 많고 판매량이 적으면 가격을 내린다" 또는 "경쟁업체 가격이 낮으면 가격을 올린다"는 규칙을 의미합니다.

정책기반 이터레이션 과정

정책기반 이터레이션의 과정은 다음과 같습니다:

1단계: 초기 정책 설정

에이전트는 초기 정책을 설정합니다. 예를 들어, "재고가 많으면 가격을 내린다", "경쟁업체 가격이 낮으면 가격을 올린다"라는 정책을 설정할 수 있습니다.

2단계: 정책 평가

에이전트는 이 초기 정책을 따르며 행동을 취합니다. 그 후, 각 행동의 결과를 평가하여 보상을 받습니다. 예를 들어, 가격을 내리면 판매량이 증가할 수 있지만, 이익은 적어질 수 있습니다. 이를 평가하여 보상을 계산합니다.

3단계: 정책 개선

평가한 결과를 바탕으로 에이전트는 정책을 개선합니다. 예를 들어, 가격을 내리는 대신 더 나은 결과를 얻을 수 있는 방법을 찾아내고, 정책을 수정합니다. 이렇게 점진적으로 정책을 개선하며, 최적의 가격 결정을 학습합니다.

4단계: 최적 정책 도출

에이전트는 반복적인 과정을 통해 최적의 가격 정책을 도출해냅니다. 이때 에이전트는 상태마다 가장 적합한 행동을 취하는 정책을 학습하게 됩니다.

결론

정책기반 이터레이션은 상태마다 최적의 행동을 학습하는 과정입니다. 온라인 쇼핑몰 가격 결정 예제에서는 에이전트가 재고, 판매 수요, 경쟁업체 가격 등을 고려하여 최적의 가격을 결정하는 정책을 학습합니다. 이를 통해 에이전트는 상태에 맞는 최적의 가격 행동을 찾아내고, 이익을 극대화할 수 있게 됩니다.

정책기반 이터레이션은 직접적으로 정책을 학습하는 방법이므로, 복잡한 환경에서 여러 조건을 고려한 최적의 결정을 내릴 수 있게 합니다.

가치기반 vs. 정책기반 이터레이션 - 강화학습

강화학습을 통한 가격 결정: 가치기반 vs 정책기반 이터레이션

강화학습을 통한 가격 결정: 가치기반 이터레이션과 정책기반 이터레이션

강화학습이란?

강화학습(RL)은 주어진 환경에서 에이전트가 최적의 행동을 선택하여 보상을 최대화하는 방법을 학습하는 과정입니다. 온라인 쇼핑몰에서 가격 결정을 강화학습을 통해 자동화하려는 경우, 두 가지 접근 방식—가치기반 이터레이션(Value-based Iteration)과 정책기반 이터레이션(Policy-based Iteration)—을 사용할 수 있습니다.

1. 가치기반 이터레이션 (Value-based Iteration)

가치기반 이터레이션은 각 상태에서 최적의 가치를 계산하여, 그 가치를 기반으로 최적의 행동(가격)을 선택하는 방법입니다. 이 방법에서는 상태 가치 함수(Value Function)를 사용하여 각 상태의 가치를 평가하고, 그 가치를 최대화하는 행동을 선택합니다.

예제: 온라인 쇼핑몰 가격 결정

상태(State): 현재 쇼핑몰에서 판매 중인 제품의 재고량, 현재 가격, 구매 수요 등과 같은 정보를 포함한 상태를 정의합니다. 예: "재고 100개, 가격 50달러, 지난 7일 동안의 판매량 200개"
행동(Action): 에이전트가 취할 수 있는 행동은 가격을 변경하는 것입니다. 예를 들어, 가격을 10달러 올리거나 내리거나 유지하는 방식입니다.
보상(Reward): 가격 변화에 따른 보상은 판매량이나 총 이익(가격 * 판매량)에 의해 결정됩니다. 예: "판매량이 100개라면, 총 이익 100개 * 가격 50달러 = 5000달러"
가치 함수(Value Function): 각 상태에서 최적의 가격을 선택하기 위해 상태 가치 함수 V(s)를 사용합니다. 이는 각 상태에서 최적의 행동을 선택할 때 얻을 수 있는 예상 보상의 총합을 나타냅니다.

알고리즘 (Bellman Equation)

각 상태의 가치는 그 상태에서 취할 수 있는 모든 행동의 예상 보상과, 그 상태에서 다음 상태로의 전이 확률을 고려하여 계산됩니다. 예를 들어, 상태 s1에서 가격을 10달러 올리는 행동을 취했을 때, 새로운 상태 s2로 이동하게 되고, 그 상태에서 얻을 보상을 계산합니다.

2. 정책기반 이터레이션 (Policy-based Iteration)

정책기반 이터레이션은 각 상태에서 최적의 행동을 직접적으로 계산하는 방법입니다. 이 방법에서는 가치 함수보다는 정책(Policy)을 직접 학습합니다. 정책은 각 상태에서 취할 최적의 행동을 결정하는 규칙입니다.

예제: 온라인 쇼핑몰 가격 결정

상태(State): 가격을 조정할 시점에서의 재고와 판매량, 경쟁 가격 등을 포함한 상태를 정의합니다. 예: "현재 가격 50달러, 경쟁업체 가격 45달러, 재고 100개"
정책(Policy): 에이전트는 주어진 상태에서 가격을 올릴지, 내릴지 또는 유지할지 결정하는 정책을 학습합니다. 예: "재고가 많으면 가격을 내린다", "경쟁업체 가격이 낮으면 가격을 올린다"
보상(Reward): 보상은 판매량과 이익에 의해 결정되며, 정책이 잘 작동할수록 보상이 커집니다.

정책 학습

정책기반 이터레이션에서는 에이전트가 상태마다 최적의 행동을 결정하는 정책을 학습하는데 초점을 맞춥니다. 예를 들어, 특정 상황에서 가격을 올리는 것이 장기적으로 이익을 최대화할 수 있다고 판단되면, 에이전트는 그 정책을 따릅니다.

2025년 3월 4일 화요일

[강화학습] 모델링 종류

강화학습의 모델링 방법

강화학습의 모델링에는 어떤 것이 있는가?

강화학습(Reinforcement Learning, RL)에서 환경과의 상호작용을 통해 최적의 행동을 학습하기 위해 다양한 모델링 방법이 존재합니다. 주요 방식으로는 모델 기반 (Model-Based)과 모델 프리 (Model-Free)가 있으며, 각각 장단점이 있습니다.

1. 모델 기반 (Model-Based) 강화학습

모델 기반 강화학습은 환경의 동작을 예측할 수 있는 환경 모델을 학습하여 정책을 최적화하는 방식입니다.

환경의 상태 전이 확률 $P(s'|s, a)$과 보상 함수 $R(s, a)$를 모델링
학습된 모델을 활용해 시뮬레이션을 수행하며 정책을 개선
대표적인 알고리즘: Dyna-Q, AlphaGo, MuZero, PILCO

2. 모델 프리 (Model-Free) 강화학습

모델 프리 방식은 환경 모델 없이 직접 경험을 통해 학습하는 방식입니다.

환경과 직접 상호작용하여 데이터 수집
많은 데이터를 필요로 하지만 복잡한 환경에서도 적용 가능
대표적인 알고리즘: Q-learning, DQN, PPO, A2C, SAC

3. 가치 기반 vs 정책 기반 vs Actor-Critic

방법	개념	대표 알고리즘	장점	단점
가치 기반 (Value-Based)	Q-value를 학습하여 최적 행동 선택	Q-learning, DQN	샘플 효율적	고차원 행동 공간에 취약
정책 기반 (Policy-Based)	정책을 직접 최적화	REINFORCE, PPO	연속적 행동에서 강함	샘플 효율성 낮음
Actor-Critic	정책 + 가치 결합	A2C, SAC	가치 평가로 안정적 학습	설계가 복잡함

4. 모델 기반 vs 모델 프리 비교

구분	모델 기반 (Model-Based)	모델 프리 (Model-Free)
환경 모델	환경을 모델링하여 사용	환경 모델 없이 학습
샘플 효율성	높음 (적은 데이터로 학습 가능)	낮음 (많은 데이터 필요)
학습 속도	빠름 (모델을 활용해 예측 가능)	느림 (경험을 직접 쌓아야 함)
적용 가능 환경	모델이 정확하면 강력함	복잡한 환경에서도 적용 가능
예제 알고리즘	Dyna-Q, AlphaGo, MuZero	Q-learning, DQN, PPO, A2C

5. 결론

강화학습에서는 문제의 특성에 따라 모델 기반과 모델 프리 방식을 적절히 선택해야 합니다.

빠르고 효율적인 학습이 필요하면 모델 기반 방식 사용
복잡한 환경에서도 안정적으로 학습하려면 모델 프리 방식 사용

각 방법의 장단점을 이해하고 적절히 적용하면 강화학습을 효과적으로 활용할 수 있습니다.

[강화학습] Actor-Critic Learning

강화학습의 Actor-Critic 학습이란?

강화학습(Reinforcement Learning, RL)은 인공지능이 환경과 상호작용하면서 보상을 최대화하도록 학습하는 방법입니다. 그중에서도 Actor-Critic 학습은 강화학습에서 널리 사용되는 효율적인 알고리즘 중 하나입니다.

1. Actor-Critic의 기본 개념

Actor-Critic 방법은 Actor(행동자)와 Critic(평가자)라는 두 가지 신경망을 사용하여 학습합니다.

Actor (행동자): 현재 상태에서 어떤 행동을 할지를 결정합니다.
Critic (평가자): Actor가 선택한 행동이 얼마나 좋은지를 평가합니다.

즉, Actor는 행동을 결정하고, Critic은 그 행동이 얼마나 좋은지 평가하여 Actor를 개선하는 방식으로 학습이 진행됩니다.

2. Actor-Critic의 동작 원리

Actor-Critic 알고리즘의 학습 과정은 다음과 같습니다.

환경에서 현재 상태(s)를 관찰합니다.
Actor가 현재 상태에서 행동(a)을 결정합니다.
그 행동을 실행하고, 보상(r)과 새로운 상태(s')를 얻습니다.
Critic이 행동의 가치를 평가하고, Actor가 이를 참고하여 정책을 업데이트합니다.
이 과정을 반복하여 점점 더 나은 행동을 학습합니다.

3. Actor-Critic의 장점

정책 기반과 가치 기반의 결합: 정책을 직접 최적화하는 Actor와 가치를 평가하는 Critic을 함께 사용하여 안정적인 학습이 가능합니다.
샘플 효율성 증가: Critic이 가치 평가를 도와주므로 정책을 더 빠르게 개선할 수 있습니다.
고차원 상태에서도 효과적: 복잡한 환경에서도 잘 작동합니다.

4. 간단한 Actor-Critic 코드 (파이썬)

아래는 기본적인 Actor-Critic 학습의 구조를 보여주는 간단한 코드입니다.

import torch
import torch.nn as nn
import torch.optim as optim

class Actor(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(Actor, self).__init__()
        self.fc = nn.Linear(state_dim, action_dim)

    def forward(self, state):
        return torch.softmax(self.fc(state), dim=-1)

class Critic(nn.Module):
    def __init__(self, state_dim):
        super(Critic, self).__init__()
        self.fc = nn.Linear(state_dim, 1)

    def forward(self, state):
        return self.fc(state)

state_dim = 4  # 예제 환경에서 상태의 차원 수
action_dim = 2  # 예제 환경에서 가능한 행동 수

actor = Actor(state_dim, action_dim)
critic = Critic(state_dim)

print("Actor Network:", actor)
print("Critic Network:", critic)

5. 결론

Actor-Critic 학습 방법은 강화학습에서 강력한 기법으로, 많은 최신 인공지능 기술에 사용됩니다. 특히, 정책 기반과 가치 기반의 장점을 모두 활용하여 더 효율적인 학습을 할 수 있습니다.

더 깊이 알고 싶다면 OpenAI Spinning Up의 자료를 참고하는 것도 좋습니다.

이제 여러분도 Actor-Critic을 활용한 강화학습에 도전해보세요!

2025년 3월 3일 월요일

[강화학습] 가치기반 vs. 정책기반 학습

가치기반 학습 vs. 정책기반 학습: 가장 중요한 요소

가치기반 학습 (Value-based Learning)

가치기반 학습은 에이전트가 주어진 상태에서 취할 수 있는 행동들의 가치를 평가하는 것을 중심으로 합니다. 여기서 "가치"란 특정 상태에서 특정 행동을 취했을 때 기대할 수 있는 장기적인 보상의 크기를 의미합니다.

가장 중요한 요소: 가치 함수(Value Function)

가치기반 학습에서 가장 중요한 개념은 가치 함수입니다. 가치 함수는 두 가지 유형으로 나뉩니다:

상태 가치 함수 (V(s)): 상태 s에서 얻을 수 있는 예상 총 보상
행동 가치 함수 (Q(s, a)): 상태 s에서 행동 a를 취했을 때 얻을 수 있는 예상 총 보상

대표적인 알고리즘

가치기반 학습에서는 Q값(행동 가치 함수)을 학습하는 방식이 일반적이며, 대표적인 알고리즘으로는 다음과 같은 방법이 있습니다.

Q-learning: 가치 기반 강화학습에서 가장 널리 사용되는 알고리즘으로, Q값을 업데이트하면서 최적의 행동을 찾아감
Deep Q-Network(DQN): Q-learning을 신경망과 결합하여 고차원 상태 공간에서도 학습이 가능하도록 개선된 기법

가치기반 학습의 장점과 단점

장점: 최적의 정책을 추론할 수 있으며, 탐색과 활용의 균형을 조절할 수 있는 ε-greedy 전략을 적용 가능

단점: 연속적인 행동 공간에서는 Q값을 모두 저장하기 어렵고, 높은 차원의 상태 공간에서는 학습 속도가 느려질 수 있음

정책기반 학습 (Policy-based Learning)

정책기반 학습은 에이전트가 최적의 정책(π)을 직접 학습하는 방식입니다. 즉, 상태 s가 주어졌을 때, 어떤 행동 a를 취할 확률을 결정하는 함수인 정책 π(a|s)를 학습하는 것이 목표입니다.

가장 중요한 요소: 정책(Policy)

정책기반 학습에서는 정책 함수(Policy Function)가 핵심입니다. 정책은 두 가지 방식으로 표현될 수 있습니다:

확률적 정책 (Stochastic Policy): 특정 상태에서 여러 행동을 취할 확률을 결정 (π(a|s) = P(a|s))
결정적 정책 (Deterministic Policy): 특정 상태에서 항상 동일한 행동을 선택 (π(s) = a)

대표적인 알고리즘

정책기반 학습에서 사용되는 대표적인 알고리즘은 다음과 같습니다.

정책 경사법 (Policy Gradient): 정책을 직접 최적화하는 방식으로, 정책의 기울기를 계산하여 업데이트
REINFORCE: 샘플링된 행동을 기반으로 정책을 업데이트하는 대표적인 정책 경사 기법
Actor-Critic: 정책기반 학습과 가치기반 학습을 결합하여 더 안정적인 학습이 가능

정책기반 학습의 장점과 단점

장점: 연속적인 행동 공간에서도 적용이 가능하며, 탐색 전략이 내재되어 있어 학습이 빠름

단점: 정책이 직접 최적화되므로 학습이 불안정할 수 있으며, 수렴 속도가 느릴 수 있음

결론: 가치기반 vs. 정책기반 학습

가치기반 학습과 정책기반 학습은 각각의 장단점이 있으며, 사용 환경에 따라 적절한 방식을 선택해야 합니다.

언제 가치기반 학습을 사용할까?

이산적(discrete) 행동 공간을 다룰 때
보상을 명확하게 평가할 수 있을 때
Q-learning과 같은 방법으로 행동을 최적화할 수 있을 때

언제 정책기반 학습을 사용할까?

연속적인(continuous) 행동 공간을 다룰 때
정확한 보상 평가가 어려운 환경에서 정책을 직접 최적화할 때
로봇 제어와 같이 미분 가능한 정책이 필요한 경우

최근 강화학습에서는 가치기반 학습과 정책기반 학습을 결합한 Actor-Critic 방법이 널리 사용되며, 이를 통해 두 가지 방식의 장점을 동시에 활용할 수 있습니다.

[강화학습] 정책이터레이션과 가치이터레이션의 차이점

강화학습에서 정책 이터레이션과 가치 이터레이션의 차이점

강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 배우는 과정입니다. 이 과정에서 "정책"과 "가치 함수"라는 두 가지 중요한 개념이 등장합니다. 정책 이터레이션(Policy Iteration)과 가치 이터레이션(Value Iteration)은 이 두 개념을 활용하여 최적 정책을 찾기 위한 알고리즘입니다. 두 알고리즘은 비슷한 목적을 가지고 있지만, 그 방식에는 차이가 있습니다.

1. 정책 이터레이션(Policy Iteration)

정책 이터레이션은 "정책 평가"와 "정책 개선"을 번갈아 가며 반복하여 최적의 정책을 찾는 방법입니다. 정책은 에이전트가 각 상태에서 취할 행동을 정의한 규칙입니다. 정책 이터레이션은 다음 두 단계로 구성됩니다:

정책 평가(Policy Evaluation): 주어진 정책에 대해 각 상태에서의 가치를 계산합니다. 이때, 상태 가치 함수 $V^\pi(s)$를 구하게 됩니다.
정책 개선(Policy Improvement): 현재 가치 함수에 기반하여, 각 상태에서 최적의 행동을 선택하고, 정책을 개선합니다.

정책 이터레이션은 이 두 단계를 반복하면서 점점 더 나은 정책을 찾게 됩니다. 이 방식은 비교적 직관적이고, 작은 상태 공간에서는 빠르게 수렴할 수 있습니다.

2. 가치 이터레이션(Value Iteration)

가치 이터레이션은 가치 함수 $V(s)$를 직접 갱신하여 최적 정책을 찾는 알고리즘입니다. 정책 이터레이션과 달리, 가치 이터레이션은 정책을 바로 개선하는 대신, 각 상태에서의 가치를 반복적으로 업데이트합니다. 이 알고리즘의 주요 단계는 다음과 같습니다:

가치 함수 갱신(Value Update): 각 상태에 대해 벨만 기대 방정식을 사용하여 가치 함수를 갱신합니다. 이때, 정책은 암묵적으로 최적화됩니다.

가치 이터레이션은 정책을 명시적으로 개선하지 않고, 대신 가치 함수가 충분히 수렴할 때까지 반복합니다. 가치 함수가 수렴되면, 그때서야 최적 정책을 도출할 수 있습니다.

3. 정책 이터레이션과 가치 이터레이션의 차이점

정책 이터레이션과 가치 이터레이션의 주요 차이점은 정책 개선이 언제 이루어지는지에 있습니다:

구분	정책 이터레이션	가치 이터레이션
정책 평가	정책 평가 단계에서 가치 함수 $V^\pi(s)$를 구합니다.	정책을 직접 평가하지 않고, 가치 함수만 업데이트합니다.
정책 개선	정책 개선 단계에서 각 상태에서의 최적 행동을 선택하여 정책을 개선합니다.	가치 함수가 수렴할 때까지 반복하고, 그 후에 최적 정책을 도출합니다.
수렴 속도	작은 상태 공간에서는 빠르게 수렴하지만, 큰 상태 공간에서는 느릴 수 있습니다.	상태 공간이 크더라도, 점진적으로 수렴하지만 더 느릴 수 있습니다.
장점	정책과 가치 함수가 분리되어 있어 이해하기 쉬운 구조입니다.	가치 함수만 업데이트하므로 메모리 사용이 상대적으로 적습니다.

4. 요약

정책 이터레이션과 가치 이터레이션은 최적 정책을 찾기 위한 두 가지 방법입니다. 정책 이터레이션은 정책을 명시적으로 평가하고 개선하는 반면, 가치 이터레이션은 가치 함수만을 갱신하며 정책을 암묵적으로 개선합니다. 둘 다 강력한 알고리즘이지만, 상태 공간이 크거나 복잡할 때는 다른 방식이 더 효율적일 수 있습니다.

[강화학습] 정책 이터레이션

강화학습에서 정책 이터레이션(Policy Iteration) 설명

강화학습에서 정책 이터레이션(Policy Iteration)

강화학습에서 정책 이터레이션(Policy Iteration)은 최적의 정책을 구하기 위한 알고리즘입니다. 이 알고리즘은 주어진 환경에서 최적 정책을 찾아내기 위해, 주기적으로 두 가지 주요 단계를 반복합니다. 첫 번째는 정책 평가(Policy Evaluation) 단계이고, 두 번째는 정책 개선(Policy Improvement) 단계입니다. 정책 이터레이션은 가치 반복(Value Iteration)보다 더 빠르게 수렴할 수 있는 경우가 많습니다.

1. 정책 이터레이션의 개념

정책 이터레이션은 두 가지 중요한 단계를 반복적으로 실행합니다. 그 과정은 다음과 같습니다:

정책 평가(Policy Evaluation): 주어진 정책에 대한 가치 함수를 계산합니다. 이 단계에서는 현재 정책이 각 상태에서 얻을 수 있는 예상 보상값을 계산합니다.
정책 개선(Policy Improvement): 가치 함수가 주어졌을 때, 각 상태에서 최적의 행동을 선택하여 정책을 개선합니다.

2. 정책 이터레이션 알고리즘

정책 이터레이션 알고리즘은 다음과 같은 단계로 진행됩니다:

Step 1: 초기 정책 $ \pi_0 $를 설정합니다.
Step 2: 주어진 정책 $ \pi $에 대해 가치 함수 $ V^{\pi} $를 계산합니다. (정책 평가 단계)
Step 3: 가치 함수 $ V^{\pi} $에 기반하여 각 상태에서 최적 행동을 선택하고 정책을 개선합니다. (정책 개선 단계)
Step 4: 정책이 더 이상 변경되지 않을 때까지, 정책 평가와 정책 개선을 반복합니다.

3. 정책 평가 (Policy Evaluation)

정책 평가 단계에서는 주어진 정책에 대한 각 상태의 가치를 계산합니다. 이때 벨만 기대 방정식(Bellman Expectation Equation)을 사용하여, 각 상태에서 얻을 수 있는 보상의 총합을 계산합니다. 벨만 기대 방정식은 다음과 같습니다:

$$ V^{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^{\pi}(s') \right] $$

여기서:

$ V^{\pi}(s) $: 상태 $ s $에서의 정책 $ \pi $에 대한 가치 함수
$ \pi(a|s) $: 상태 $ s $에서 행동 $ a $를 선택할 확률
$ P(s'|s,a) $: 상태 $ s $에서 행동 $ a $를 취했을 때 상태 $ s' $로 전이될 확률
$ R(s,a,s') $: 상태 $ s $에서 행동 $ a $를 취하고 상태 $ s' $로 전이될 때 얻는 보상
$ \gamma $: 할인율 (0과 1 사이의 값)

4. 정책 개선 (Policy Improvement)

정책 개선 단계에서는 정책 평가에서 계산된 가치 함수 $ V^{\pi} $를 사용하여 각 상태에서 최적의 행동을 선택합니다. 즉, 주어진 가치 함수에 대해 각 상태에서 최적 행동을 찾고, 그 행동을 새로운 정책에 반영합니다. 이때 정책 개선은 다음과 같은 방식으로 이루어집니다:

$$ \pi'(s) = \arg\max_{a} \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^{\pi}(s') \right] $$

여기서 $ \pi'(s) $는 상태 $ s $에서의 최적 행동입니다. 정책 개선은 가치 함수가 수렴한 후, 최적의 정책을 도출하는 과정입니다.

5. 정책 이터레이션 알고리즘의 수학적 표현

정책 이터레이션의 알고리즘을 수학적으로 표현하면 다음과 같습니다:


# 정책 이터레이션 알고리즘 (Python)
import numpy as np

# 상태와 행동 정의
states = [0, 1, 2, 3]
actions = [0, 1]
P = {...}  # 상태 전이 확률
R = {...}  # 보상 함수
gamma = 0.9  # 할인율
theta = 1e-6  # 수렴 기준

# 초기 정책과 가치 함수
policy = np.zeros(len(states), dtype=int)
V = np.zeros(len(states))

def policy_evaluation(policy, V, P, R, gamma, theta):
    while True:
        delta = 0
        for s in range(len(states)):
            v = V[s]
            V[s] = sum(P[s, a] * (R[s, a] + gamma * V[s_next]) for a in actions)
            delta = max(delta, abs(v - V[s]))
        if delta < theta:
            break
    return V

def policy_improvement(V, P, R, gamma):
    policy_stable = True
    for s in range(len(states)):
        old_action = policy[s]
        policy[s] = np.argmax([sum(P[s, a] * (R[s, a] + gamma * V[s_next]) for s_next in range(len(states))) for a in actions])
        if old_action != policy[s]:
            policy_stable = False
    return policy_stable

def policy_iteration(P, R, gamma, theta):
    policy = np.zeros(len(states), dtype=int)
    V = np.zeros(len(states))

    while True:
        V = policy_evaluation(policy, V, P, R, gamma, theta)
        policy_stable = policy_improvement(V, P, R, gamma)
        if policy_stable:
            break

    return policy, V

policy, V = policy_iteration(P, R, gamma, theta)
print("최적 정책:", policy)
print("최적 가치 함수:", V)

6. 정책 이터레이션의 장점과 단점

장점

정책 평가와 개선이 분리되어 있어, 큰 상태 공간에서도 안정적으로 작동할 수 있습니다.
정책 이터레이션은 빠르게 최적 정책에 수렴할 수 있습니다.

단점

정책 평가 단계에서 수학적 계산이 많이 필요하여, 계산 비용이 높을 수 있습니다.
상태 공간이 매우 클 경우 메모리와 계산 자원이 많이 소모될 수 있습니다.

7. 결론

정책 이터레이션은 강화학습에서 최적 정책을 찾기 위한 중요한 알고리즘입니다. 정책 평가와 정책 개선의 두 단계를 반복함으로써, 에이전트는 점차 최적 정책을 학습할 수 있습니다. 가치 반복보다 더 효율적인 경우도 있지만, 상태 공간이 커지면 계산 비용이 높아질 수 있다는 단점이 있습니다.

[강화학습] 가치이터레이션

강화학습에서 가치 이터레이션(Value Iteration) 설명

강화학습에서 가치 이터레이션(Value Iteration)

가치 이터레이션(Value Iteration)은 강화학습에서 사용되는 중요한 알고리즘 중 하나로, 최적 정책을 찾기 위한 방법입니다. 이 방법은 동적 프로그래밍의 한 종류로, 벨만 최적 방정식(Bellman Optimality Equation)을 반복적으로 적용하여 최적 가치 함수를 계산합니다. 이를 통해 최적 정책을 도출할 수 있습니다.

1. 가치 이터레이션의 개념

가치 이터레이션의 핵심은 가치 함수를 업데이트하면서, 각 상태에서 최적 행동을 선택할 수 있도록 만드는 것입니다. 강화학습의 목표는 에이전트가 주어진 환경에서 최적의 행동을 취하도록 하는 것입니다. 이를 위해서는 각 상태에 대해 예상되는 보상을 최대화하는 정책을 찾아야 합니다.

(1) 벨만 최적 방정식

가치 이터레이션은 벨만 최적 방정식을 반복적으로 적용하여 최적 가치 함수 $ V^*(s) $를 계산합니다. 벨만 최적 방정식은 다음과 같습니다:

$$ V^*(s) = \max_{a} \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^*(s') \right] $$

여기서:

$ V^*(s) $ : 상태 $ s $에서의 최적 가치 함수
$ \gamma $ : 할인율 (0과 1 사이의 값)
$ P(s'|s,a) $ : 상태 $ s $에서 행동 $ a $를 취했을 때 다음 상태 $ s' $로 전이될 확률
$ R(s,a,s') $ : 상태 $ s $에서 행동 $ a $를 취하고 상태 $ s' $로 전이될 때 얻는 보상

(2) 가치 함수 업데이트

벨만 최적 방정식을 사용하여 각 상태에 대한 가치 함수를 반복적으로 업데이트합니다. 초기에는 가치 함수가 모두 0으로 설정되며, 그 후 각 상태에서의 가치를 점진적으로 개선합니다.

2. 가치 이터레이션 알고리즘

가치 이터레이션 알고리즘은 다음과 같은 순서로 진행됩니다:

Step 1: 가치 함수 $ V(s) $를 초기화합니다. 일반적으로 모든 상태의 초기 가치는 0으로 설정합니다.
Step 2: 벨만 최적 방정식을 사용하여 각 상태의 가치를 반복적으로 업데이트합니다.
Step 3: 가치 함수가 충분히 수렴하면, 각 상태에서 최적 행동을 선택하여 최적 정책을 도출합니다.

가치 이터레이션의 반복 과정

각 상태 $ s $에 대해 벨만 최적 방정식을 적용하여 가치 함수를 업데이트합니다. 이 과정은 모든 상태의 가치 함수가 수렴할 때까지 반복됩니다. 수렴 기준은 각 상태의 가치 함수 변화가 미세할 때로 설정할 수 있습니다.

$$ \text{새로운 가치}(s) = \max_{a} \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V(s') \right] $$

3. 가치 이터레이션의 Python 코드 예시

# 가치 이터레이션 구현 (Python)
import numpy as np

states = [0, 1, 2, 3]  # 상태 목록
actions = [0, 1]  # 가능한 행동 목록
transition_prob = {
    (0, 0): [(1.0, 0, -1)],
    (0, 1): [(1.0, 1, 0)],
    (1, 0): [(1.0, 0, -1)],
    (1, 1): [(1.0, 2, 0)],
    (2, 0): [(1.0, 1, -1)],
    (2, 1): [(1.0, 3, 10)],
    (3, 0): [(1.0, 3, 0)],
    (3, 1): [(1.0, 3, 0)]
}

gamma = 0.9  # 할인율
theta = 1e-6  # 수렴 기준
V = np.zeros(len(states))  # 초기 가치 함수

# 가치 이터레이션 반복
while True:
    delta = 0
    for s in states:
        v = V[s]
        V[s] = max(sum(prob * (reward + gamma * V[s_next]) for prob, s_next, reward in transition_prob.get((s, a), [])) for a in actions)
        delta = max(delta, abs(v - V[s]))
    if delta < theta:
        break

# 최적 정책 도출
policy = np.zeros(len(states), dtype=int)
for s in states:
    policy[s] = np.argmax([sum(prob * (reward + gamma * V[s_next]) for prob, s_next, reward in transition_prob.get((s, a), [])) for a in actions])

print("최적 가치 함수:", V)
print("최적 정책:", policy)

4. 가치 이터레이션의 장점과 단점

장점

상태가 적당히 크면 수렴이 빠르고 안정적입니다.
정책 없이 직접적으로 최적 가치 함수를 계산할 수 있습니다.

단점

상태 공간이 커지면 수렴 속도가 느려질 수 있습니다.
큰 상태 공간을 처리하기 위해 메모리와 계산 자원이 많이 소모될 수 있습니다.

5. 결론

가치 이터레이션은 강화학습에서 중요한 알고리즘으로, 가치 함수를 반복적으로 갱신하여 최적의 정책을 찾는 방법입니다. 벨만 최적 방정식을 기반으로 하며, 각 상태에서 최적 행동을 선택하는 데 유용합니다. 상태 공간이 작은 경우 효율적으로 동작하지만, 상태 공간이 커지면 계산 자원을 많이 소모할 수 있다는 단점이 있습니다.

2025년 3월 2일 일요일

[강화학습] 강화학습에서 확률과 기대값

강화학습에서 확률과 기대값

강화 학습에서 확률과 기대값은 매우 중요한 개념입니다. 이 두 개념을 이해하는 것이 강화 학습의 핵심을 이해하는 데 도움이 됩니다.

1. 확률 (Probability)란?

확률은 어떤 일이 일어날 가능성을 나타내는 값입니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 50%이고, 뒷면이 나올 확률도 50%입니다. 확률 값은 항상 0에서 1 사이의 값으로 나타내며, 0은 "절대 일어나지 않음", 1은 "반드시 일어남"을 의미합니다.

강화학습에서의 확률

강화 학습에서는 에이전트가 환경에서 행동을 할 때, 그 행동이 어떤 결과를 가져올지 알 수 없기 때문에 확률적인 사고가 필요합니다. 예를 들어, 에이전트가 상태에서 행동을 선택할 때, 확률적으로 행동을 선택하거나 상태가 변화할 수 있습니다.

정책(Policy): 강화 학습에서 정책은 에이전트가 어떤 상태에서 어떤 행동을 할 확률을 정의하는 함수입니다.
상태 전이 확률: 에이전트가 어떤 상태에서 행동을 했을 때, 그 행동으로 인해 다음 상태로 이동할 확률입니다.

2. 기대값 (Expected Value)란?

기대값은 어떤 사건이 일어날 때 평균적으로 기대할 수 있는 값을 뜻합니다. 확률적인 결과들에 대해 평균을 계산하는 것이라고 할 수 있습니다.

기대값의 공식

기대값을 계산하는 공식은 다음과 같습니다:

$E[X] = \sum_{i} P(x_i) \cdot x_i$

여기서 $x_i$는 가능한 결과들, $P(x_i)$는 각 결과가 일어날 확률입니다.

강화학습에서의 기대값

강화 학습에서는 어떤 행동을 했을 때 얻을 보상의 기대값을 계산하는 것이 중요합니다. 에이전트는 미래 보상까지 고려해서 최적의 행동을 선택해야 하기 때문입니다.

보상 기대값: 에이전트는 행동을 했을 때 받을 수 있는 즉각적인 보상과 미래의 보상까지 고려하여 그 행동이 얼마나 좋은지 평가합니다.

3. 강화학습에서 확률과 기대값이 중요한 이유

1) 확률의 중요성

행동 선택: 에이전트는 주어진 상태에서 확률적으로 어떤 행동을 선택할 수 있습니다. 예를 들어, 에이전트가 상태에서 행동을 선택할 확률이 0.7이라면, 70%의 확률로 행동을 취하게 됩니다.
환경의 반응: 환경은 에이전트의 행동에 대해 확률적으로 반응할 수 있습니다.

2) 기대값의 중요성

최적의 행동 선택: 에이전트는 어떤 행동이 가장 큰 보상을 가져올지 알지 못합니다. 그래서 각 행동의 기대 보상을 계산하고, 그 기대 보상이 가장 큰 행동을 선택해야 합니다.
Q-학습: Q-학습에서는 행동 가치 함수 $Q(s, a)$를 사용하여 특정 상태에서 어떤 행동을 했을 때 얻을 수 있는 기대 보상을 계산합니다.

4. 예시로 이해하기

예시 1: 주사위 던지기

주사위를 던졌을 때, 각 면이 나올 확률은 1/6입니다. 만약 주사위에서 나온 숫자가 보상이라면, 그 보상의 기대값을 계산할 수 있습니다.

$E[\text{주사위}] = \sum P(i) \cdot i = \frac{1}{6} \cdot (1 + 2 + 3 + 4 + 5 + 6) = \frac{1}{6} \cdot 21 = 3.5$

따라서, 주사위 던지기의 기대값은 3.5입니다. 즉, 주사위를 여러 번 던지면 평균적으로 3.5 정도의 보상을 받을 수 있다는 의미입니다.

예시 2: 강화학습에서 행동 선택

강화 학습에서, 에이전트가 상태에서 두 가지 행동을 선택할 수 있다고 가정해 봅시다. 각 행동에 대해 얻을 수 있는 보상의 기대값을 계산해보겠습니다.

행동 A1: 기대 보상 5
행동 A2: 기대 보상 8

에이전트는 더 큰 보상을 기대할 수 있는 행동 A2를 선택할 것입니다.

정리

확률: 강화 학습에서 에이전트는 각 행동을 선택할 확률을 계산하고, 그에 따른 결과가 확률적으로 결정됩니다.
기대값: 각 행동의 결과에 대한 평균적인 보상을 계산하여, 에이전트가 최적의 행동을 선택할 수 있도록 도와줍니다.
강화 학습에서의 활용: 행동 선택의 확률적 결정, 기대 보상 계산을 통한 최적의 행동 선택

이 두 개념을 잘 이해하면 강화 학습에서 최적의 정책을 찾는 데 큰 도움이 됩니다!

[강화학습] 벨만 방정식 쉽게 이해하기

벨만 방정식 쉽게 이해하기

벨만 방정식(Bellman Equation) 쉽게 이해하기

1. 벨만 방정식이란?

벨만 방정식은 "현재 상태에서 내리는 최적의 결정이 결국 전체적으로도 최적의 결과를 만든다"는 개념을 수학적으로 표현한 것입니다.

📌 예제: 미로 게임

미로에서 출구까지 가는 길을 찾는 문제를 생각해 봅시다.

각 칸에서 이동할 수 있는 방향이 있습니다.
이동할 때마다 보상을 받을 수도 있고, 벌점을 받을 수도 있습니다.
목표는 출구까지 가는 최적의 경로(최대 보상)를 찾는 것입니다.

2. 벨만 방정식의 원리

벨만 방정식은 현재 상태의 가치는 현재 받을 보상과 미래의 가치의 합으로 계산할 수 있다는 원리를 따릅니다.

현재 상태의 가치 V(s) = 현재 선택으로 받는 보상 R(s, a) + 다음 상태에서의 최적 가치 V(s')

V(s) = max_a [ R(s, a) + γ V(s') ]

📌 각 항목의 의미

V(s): 현재 상태 s에서의 기대 가치
a: 현재 상태에서 선택할 수 있는 행동
R(s, a): 상태 s에서 행동 a를 했을 때 얻는 보상
γ: 할인율 (0~1 사이의 값, 미래 보상의 중요도 결정)
V(s'): 다음 상태 s'에서의 최적 가치

3. 벨만 방정식 쉽게 이해하기

📌 예제 1: 계단 오르기

당신이 계단을 올라가려고 합니다.

1칸을 올라가면 1점을 받습니다.
2칸을 올라가면 2점을 받습니다.
목표는 최대한 많은 점수를 받으면서 올라가는 것입니다.

📌 예제 2: 미로 찾기

아래와 같은 미로에서 출구(오른쪽 아래)로 가는 최적의 경로를 찾는 문제를 생각해 보겠습니다.

S → □ → □
↓    ↓    ↓
□ → □ → G

S: 시작점
G: 목표(출구)
□: 이동 가능한 칸
각 칸에서 한 칸 이동할 때마다 -1점을 받습니다.
출구(G)에 도달하면 보상 +10점을 받습니다.

벨만 방정식을 사용하면, 각 칸에서 이동할 수 있는 방향 중 최대 점수를 얻을 수 있는 방향을 선택하는 방식으로 문제를 해결할 수 있습니다.

4. 벨만 방정식이 사용되는 곳

강화학습 (Reinforcement Learning): AI 학습, 자율주행, 로봇
동적 계획법 (Dynamic Programming): 최적 경로 찾기, 재고 관리
경제학 및 금융: 주식 투자 최적 전략, 옵션 가격 결정

5. 정리

✅ 벨만 방정식은 현재 상태의 최적 가치를 구하는 방법을 제공하는 방정식입니다.

✅ 핵심 원리는 현재 보상 + 미래 보상의 최적 선택입니다.

✅ 강화학습, 최적화 문제, 경로 탐색 등 다양한 분야에서 활용됩니다.

벨만 방정식이 처음에는 어려워 보일 수 있지만, 본질적으로는 "현재 선택을 최적으로 하면 전체적으로도 최적이 된다"는 단순한 개념입니다.

혹시 추가로 더 궁금한 점이 있나요?

[강화학습] 마르코프 과정 (Markov Process)의 수학적 의미

마르코프 과정의 수학적 의미

마르코프 과정의 수학적 의미와 전문가적 입장

1. 마르코프 과정의 개념

마르코프 과정(Markov process)은 어떤 시스템의 상태가 시간에 따라 변화하는 과정에서, 현재 상태만이 미래 상태를 결정짓는다는 특성을 가진 확률적 모델입니다. 즉, 마르코프 과정의 중요한 속성은 기억 없음(Memoryless) 또는 마르코프 성질(Markov property)입니다. 이는 과거의 상태들이 현재 상태와 미래 상태에 영향을 미치지 않는다는 의미입니다.

수학적 정의

마르코프 과정은 시간에 따라 상태가 변하는 확률적 과정으로, 상태 집합 $S = \{s_1, s_2, \dots, s_n\}$과 상태 전이 확률이 주어집니다. 마르코프 과정에서 상태 $s_i$에서 상태 $s_j$로 전이될 확률을 상태 전이 확률로 표현합니다. 이 확률은 $P(s_j | s_i)$로 나타낼 수 있으며, 이는 주어진 현재 상태에서 다음 상태로의 전이 확률입니다.

2. 마르코프 성질 (Markov Property)

마르코프 과정의 핵심은 마르코프 성질에 있습니다. 즉, 주어진 현재 상태만 알면, 그 이후의 상태가 어떻게 될지 예측할 수 있습니다. 이를 수학적으로 표현하면:

$ P(s_{t+1} | s_t, s_{t-1}, \dots, s_1) = P(s_{t+1} | s_t) $

이는 현재 상태 $s_t$만으로 다음 상태 $s_{t+1}$를 예측할 수 있다는 의미입니다. 과거 상태나 이전 행동들은 영향을 미치지 않습니다. 이 속성을 기억 없음(Memoryless)이라고도 부릅니다.

3. 수학적 모델링: 상태 전이 확률과 확률 행렬

마르코프 과정에서는 상태가 시간에 따라 변하며, 그 변화를 확률적으로 모델링합니다. 각 상태에서 다른 상태로 전이될 확률을 상태 전이 확률로 정의하며, 이를 전이 행렬(Transition Matrix)로 표현할 수 있습니다.

예시: 날씨 모델

하나의 간단한 예로 날씨 변화를 모델링해봅시다. 날씨는 "맑음", "비", "흐림"이라는 세 가지 상태로 정의되며, 다음과 같은 전이 확률이 주어진다고 가정합니다:

"맑음" 상태에서 "맑음"으로 남을 확률은 0.7
"맑음" 상태에서 "비"로 변할 확률은 0.2
"맑음" 상태에서 "흐림"으로 변할 확률은 0.1

이런 전이 확률이 주어진 상태에서, 마르코프 과정을 사용하면 특정 날씨 상태에서의 변화 패턴을 예측할 수 있습니다.

상태 전이 행렬

상태 전이 확률을 행렬로 표현하면 다음과 같습니다:

$ P = \begin{pmatrix} 0.7 & 0.2 & 0.1 \\ 0.3 & 0.4 & 0.3 \\ 0.4 & 0.4 & 0.2 \end{pmatrix} $

이 행렬에서, 첫 번째 행은 "맑음" 상태에서 다른 상태로 전이될 확률을 나타냅니다. 예를 들어, "맑음" 상태에서 "비" 상태로 변할 확률은 0.2입니다.

4. 마르코프 과정의 확장: 마르코프 결정 과정(Markov Decision Process, MDP)

마르코프 과정은 확률적 상태 변화를 설명하지만, 결정적인 요소를 포함하지 않습니다. 만약 시스템이 특정한 행동을 통해 상태를 변화시키는 경우, 이를 마르코프 결정 과정(Markov Decision Process, MDP)으로 확장할 수 있습니다. MDP는 강화 학습과 같은 분야에서 주로 사용됩니다.

MDP 구성 요소

상태 집합(S): 시스템의 가능한 상태들
행동 집합(A): 각 상태에서 에이전트가 선택할 수 있는 행동들
전이 확률(P): 상태에서 행동을 취했을 때, 다음 상태로 전이될 확률
보상 함수(R): 각 상태에서 특정 행동을 취했을 때 얻는 보상

MDP에서는 에이전트가 정책(Policy)을 학습하여 최적의 행동을 선택하고, 그 행동에 따른 보상을 최대화하려고 합니다.

5. 전문가적 관점: 마르코프 과정의 중요성

전문가적 관점에서 마르코프 과정은 여러 분야에서 널리 활용되고 있습니다. 그 이유는 예측 가능성과 확률적 모델링이 매우 유용하기 때문입니다. 특히, 마르코프 과정은 시스템이 시간에 따라 변하고, 그 변화가 확률적이라는 점에서 현실 세계의 다양한 문제들을 모델링할 수 있는 매우 강력한 도구입니다.

자연어 처리(NLP): 문장 생성 및 문맥 분석에서 마르코프 과정은 문법적 규칙을 모델링하는 데 사용될 수 있습니다. 예를 들어, 단어들이 주어졌을 때, 그 다음에 나올 단어를 예측하는 데 마르코프 모델을 사용할 수 있습니다.
경로 계획: 로봇이나 자율 주행 차량이 환경을 탐색할 때, 마르코프 과정은 경로를 최적화하는 데 사용될 수 있습니다. 시스템은 주어진 상태에서 최적의 경로를 선택하는 확률적인 결정을 내립니다.
강화학습: 마르코프 결정 과정(MDP)은 강화학습의 기초입니다. 에이전트가 환경과 상호작용하면서 최적의 행동을 학습하는 데 사용됩니다. 이때 에이전트는 상태와 행동을 고려하여 보상을 최적화하려고 합니다.

6. 마르코프 과정의 제한 사항

마르코프 과정의 가장 큰 제한 사항은 기억 없음이라는 특성입니다. 즉, 마르코프 과정은 과거의 정보를 고려하지 않습니다. 이 때문에 장기적인 의사 결정을 위한 예측에서 제한적일 수 있습니다. 예를 들어, 어떤 행동이 이전에 어떤 영향을 미쳤는지 고려하지 않기 때문에, 기억이 필요한 문제에서는 마르코프 과정만으로 충분히 설명하기 어려운 경우가 많습니다.

이러한 문제를 해결하기 위해 확장된 마르코프 모델 (예: 숨겨진 마르코프 모델, HMM)이나 강화학습과 같은 방법이 사용될 수 있습니다.

결론

마르코프 과정은 확률론적 모델링에서 중요한 역할을 하며, 상태와 그 상태들 간의 전이를 수학적으로 설명합니다. 기억 없음 성질을 가지고 있어 미래의 상태는 현재 상태만으로 결정된다는 특징을 갖고 있습니다. 이를 통해 강화학습, 자율주행 시스템, 경로 계획, 자연어 처리 등 다양한 분야에서 응용되고 있습니다. 마르코프 과정은 매우 강력한 도구이지만, 특정 문제에서는 추가적인 확장이나 고려가 필요할 수 있습니다.

구분	정책 이터레이션	가치 이터레이션
정책 평가	정책 평가 단계에서 가치 함수 \(V^\pi(s)\)를 구합니다.	정책을 직접 평가하지 않고, 가치 함수만 업데이트합니다.
정책 개선	정책 개선 단계에서 각 상태에서의 최적 행동을 선택하여 정책을 개선합니다.	가치 함수가 수렴할 때까지 반복하고, 그 후에 최적 정책을 도출합니다.
수렴 속도	작은 상태 공간에서는 빠르게 수렴하지만, 큰 상태 공간에서는 느릴 수 있습니다.	상태 공간이 크더라도, 점진적으로 수렴하지만 더 느릴 수 있습니다.
장점	정책과 가치 함수가 분리되어 있어 이해하기 쉬운 구조입니다.	가치 함수만 업데이트하므로 메모리 사용이 상대적으로 적습니다.