## RL이 좋은 점
- 설계자로부터 적은 입력(little input from the designer)
- 정확한 역학관계 모델이 필요없음(no need of a precise dynamic model)
- 자동 학습(autonomous learning)
- 내재하는 조정 메소드(inherently adaptive methods)
##
MARL이란?
- Multi-component control에 대한 RL의 확장
- 한개의 문제를 복수개의 agent문제로 분해함으로써 대상 문제에 대한 복잡도를 줄여줌
##
MARL의 Challenge
1. True Decentralized/distributed learning
- 일반적인 환경에서 수렴을 보장할 수 없다.
- 수렴과정이 매우 느리다
2. Toy problems : 시뮬레이션
3. 멀티-에이전트 액터-크리틱으로의 일반화
4. 탐색 vs. 활용
- 비정상 국면 감지(nonstationary regime detection)
##
Stochastic Games
1. 경쟁적 설정
- 최적의 폴리시는 내쉬균형?
## 멀티에이전트 시스템에서 RL의 두가지 기본 관점
1. Agent는 다른 에이전트가 취하는 행동에 대해 모른다.(Unaware)
- Agent는 다른 Agent가 선택한 행동을 모른다.
- Agent간 Communication을 요구하지 않는다.
- 제한된 조건하에서 수렴은 보장할 수 있다.
2. Agent는 다른 에어진트가 취하는 행동을 알고 있다.(Aware)
- Agent는 다른 Agent가 어떤 액션을 취하는지 알고 있다.
- Agent간 Communication을 요구한다.
- 수렴을 보장한다.
## MARL의 도전적 과제
1. 에이전트가 외재적/내재적으로 서로 협력해야 할 필요가 있다.
- 다른 에이전트가 학습하고 해당 폴리시를 변경하는 과정에서 대상 에이전트를 학습시켜야 한다.
(주위의 환경이 역동적으로 변화하게 되어 동일한 상태에서 행동을 하더라도 Variance가 발생하는 문제가 있다.)
2. 상태와 액션 공간의 분해
3. 조인트 액션 구성
4. 수렴에 대한 증명은 어려움
- 비정상(Non-stationary) MDP
- 문제는 확률적 게임으로 모델링한다.
##
Centralized
- 모든 에이전트들의 행동이 결합되어 있는 상태에서 학습을 함
(모든 에이전트가 Policy를 알고 있음)
- 모든 에이전트가 개별적으로 학습을 수행함
- communication제한은 환경에 의해 정의됨
- 단점 : 모든 에어전트가 결합되어 있음으로,
관측 공간(Observation space),
행동 공간(Action space)이
에이전트의 수에 따라 기하 급수적으로 많아짐
##
Decentralized
- 모든 에이전트는 독립된 정책망을 갖고 있음
- 따라서 하나의 에이전트는 Joint Action Distribution이 아닌 독립된 정책망에서 행동을 결정함
- Action Space가 상당히 줄어듬
## Concurrent
- Concurrent Learning에서는 각 에이전트가 자체 개별 폴리시를 학습한다.
- Concurrent 폴리시는 에이전트의
- 개별 에이전트의 폴리시는 독립이다.
- 폴리시 그레디언트 접근에서
##
MARL의 해결과제
1. MARL은 Single-agent RL보다 차원의 저주 문제가 보다 복잡함
- 원래부터 RL은 Curse of dimensionality문제를 내재하고 있음
2. MARL의 비정형성(Nonstationarity) 문제 해결이 어려움
- 이유 : 모든 에이전트가 동시에 학습을 해야 하기 때문에 nonstationarity문제가 발생함
3. Multiple Agents로 인하여 complication이 높아지는 문제가 있음
- 이유 : 대상 Agent만 state가 변경되면서 결과에 대한 reward에 근거하여 학습을 수행해야 하는데
주변의 다른 Agents의 states도 변경되면서 nonstationary문제가 발생함
## MARL의 몇가지 축
1. Cooperative
- Agents Cooperate to achieve a goal
2. Competitive
- Agents Compete against each other
3. Neither
- Agents maximize their utility which may require cooperating and/or competing
댓글 없음:
댓글 쓰기