참고문헌 : 배정호 외(2020), 커리큘럼 러닝을 이용한 항공기 강화학습, 한국 정보과학회
일반적으로 항공기의 기동 제어를 위한 인공지능은 다양한 방법이 있다.
- 전문가 시스템
- 게임이론
- 추론모델
- 최적화 기법
전문가 시스템과 게임이론
- 도메인 전문가가 규칙을 빠짐없이 입력해야 한다.
- 판단이 모호한 상태에서의 최적화가 어렵다는 한계가 있다.
게임이론과 베이지안 추론
- 통계적 최적화 기법을 이용하므로 실시간성을 만족하기 어렵다.
- 실시간성 제어값을 제공하기 어렵기 때문에 QoS(Quality of Service)가 떨어진다.
강화학습의 필요성
- 환경과의 상호작용을 통하여 의사결정 조건을 스스로 최적화하고
학습된 정책을 통한 추론 시간은 실시간성을 보장할 수 있다.
강화학습의 문제점
- 보상이 희박한 경우에는 학습이 원활하게 진행되기 어렵다.
-> 이를 해결하기 위해 커리큘럼 러닝 기법을 사용한다.
전통적 강화학습과 문제점
- 전통적으로 강화학습은 테이블 기반의 기법을 주로 사용하였다.
- 하지만 다양한 도메인에 사용되기 위해서는 해당 상태가 무한하기 때문에 메모리 문제 등으로 원할하게 적용하기가 어렵다.
- 이러한 문제를 해결하기 위해 연구된 것이 DQN이다. DQN은 기존의 Q러닝 기반 강화학습에 딥러닝을 적용하여 이 문제를 해결하였다.
- Q러닝은 각 상태의 최대 가치를 학습하여 현재 상태에서 수행할 수 있는 액션 중 가치가 최대가 되는 액션을 선택하도록 하는 강화학습 기법이다.
- 이 기법의 한계는 현재 상태에서 수행가능한 모든 액션들에 대하여 예상되는 최대 가치를 계산해야 하므로 수행 가능한 액션이 부동소수점인 경우에는 적용하기 어렵다.
전통적 강화학습의 해결 방법
- 이러한 문제를 해결하기 위해서는 현재 상태에서 최적의 액션을 바로 학습하는 정책 경사(policy gradient)기법이 제안되었으며 대표적으로는 A2C, A3C, TRPO, PPO등이 있고 이 중 PPO가 최근 가장 널리 사용되는 방법이다.
PPO
- PPO는 기존의 정책 경사 기법에서 정책 변화가 큰 경우 강화학습 수렴성이 저하되는 현상을 막기 위하여 정책 변화가 너무 크지 않도록 제한하는 TRPO 기법을 개량하여 적은 연산량으로 유사한 성능이 나오도록 개발한 방법이다.
희박한 보상 문제 극복방법
- 희박한(sparse) 보상 문제로 인한 학습의 어려움은 많은 강화학습 도메인에서 나타나는 현상이다. 이 문제를 해결하기 위해서는 통찰있는 도메인 지식이 필요하지만 경우에 따라서는 해당 지식을 갖추기 어려울 뿐만 아니라 정확하지 않은 보상함수로 학습에 악영향을 미칠 수도 있다.
이러한 문제를 해결하기 위해서는 커리큘럼 러닝이 필요하다.
댓글 없음:
댓글 쓰기