-
[Paper Tasting] 일반화를 위해 여러 policy를 Ensembling하며 학습하는 효과적인 방법은?Paper Tasting 2023. 9. 29. 22:06
- Motive
- Generalization은 강화학습이 현실 세계에서 활용되기 위해서는 반드시 해결해야 할 이슈이다. 이 논문은 강화학습의 Generalization에 대한 또 다른 시각과 해결 방향을 제시해 주고 있다.
- 논문 제목: [2021] Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability
- Arxiv 주소: https://arxiv.org/abs/2107.06277
- 주요 내용 및 평가
- 이 논문은 강화학습의 일반화 문제를 바라보는 시점을 바꿔 주는 논문이다. 강화학습에서 일반화가 어려운 이유를 학습에서 경험하는 MDP(Markov Decision Process)와 테스트 단계(실전)에서 경험하는 MDP가 다르기 때문이라고 보고 있다. 즉, 테스트 단계에서 만나게 될 MDP는 확률적으로 불확실하며 사전에 알 수가 없으므로, 일반화를 위해 해결해야 하는 문제를 epistemic(인식론적) POMDP(Partially Observable MDP)로 정의하고 있다. 일반화 성능을 높이기 위해서는 학습할 때 경험하는 MDP에 과적합되지 않도록 Regularization해 줘야 하며, 이 논문은 그 방법 중 하나를 제안하고 있다.
- 제안된 방법의 핵심은 Ensembling 방법과 Train MDP에 종속되지 않도록 하는 Regularization에 있다. 재미 있는 것은 Ensembling을 여러개의 policy의 averaging이 아니라 각 policy의 action probability의 maximum들을 취하는 방식으로 Ensembling하고 있으며, 실험을 통해서 이 방식이 averaging보다 일반화 성능이 좋음을 보이고 있다는 것이다. 굳이 왜 그럴까 생각해보면, 각 policy에서 특정 action의 확률이 높다는 것은 confidence가 높다는 것이므로 평균보다 더 확신에 찬 의사 결정이라고 생각할 수 있기 때문으로 이해된다.
- Regularization의 경우 각각의 Training MDP에서 학습되는 policy와 Ensembled policy의 KL Divergence를 Penalty term으로 주고 있다. 이런 방식을 직관적으로 생각해보면 각 Training MDP에서 학습되고 있는 policy가 다른 MDP에서 학습되고 있는 policy들과 차이가 나지 않도록 규제하는 것으로 볼 수 있으며, 이를 통해 자신이 경험하고 있는 MDP에 과적합되지 말고 다른 MDP에서 얻은 policy와의 유사성을 유지하도록 하는 것이라 이해 될 수 있다.
- 다만 이 논문을 읽을 때 유의해야 할 점은 policy action probability의 maximum을 취하는 방식이 정말로 불확실성이 높은 환경에서도 유효할 것인가하는 점이다. 주식 시장과 같이 동일한 State에서 동일한 action을 해도 다른 미래가 펼쳐질 수 있다면 action의 확률이 하나로 쏠리지 않는 것이 보다 확신 없는 행동이라기 보다는 정확한 판단일 수도 있는 것이다. 이 논문에서 실험에 활용한 환경도 deterministic한 환경이라는 점을 유의해야 할 것이다.
- 이 논문은 강화학습의 일반화 문제를 다른 관점에서 바라볼 수 있게 해줌과 함께 해결의 실마리도 제시해주고 있는 참고 가치가 높은 논문이라고 평가하고 싶다.
- 기타 참고 사항
- 이 논문에서도 기존 방식으로 domain randomization을 소개하고 있다. 환경에 노이즈를 추가함으로써 다양한 변화에 대응할 수 있도록 학습할 수 있게 해주는 실용적인 방법으로 평가하고 있다.
- test 단계에서의 optimal action을 위해서는 adaptivity가 필요한데, Recurrent network나 stochasitic action이 adaptivity 확보에 도움을 주어 generalization에 기여할 수 있다고 설명하고 있다.
- entropy maxization을 통한 일반화 성능 개선 효과는 제한적일 수 밖에 없다. 예를 들어 test 단계에서 학습시 경험했던 상황을 만났다면 deterministic하게 행동하는 것이 좋고, 경험하지 못한 상황(MDP uncertainty가 높은 상황)에서는 상대적으로 random하게 행동하는 것이 좋을 것이다. 즉, 상황에 대한 uncertainty에 따라 의사 결정의 stochasticity는 달라져야 한다.
'Paper Tasting' 카테고리의 다른 글
[Paper Tasting] PPO를 좀 더 깊이 이해하고 싶다면 (2) 2023.10.11 [Paper Tasting] 강화학습에 Ensembling policy를 적용하고 싶다면 (1) 2023.10.09 [Paper Tasting] 강화학습 일반화를 위한 단서의 모음 (0) 2023.09.29 [Paper Tasting] 강화학습의 일반화 성능을 높여 보자 (0) 2023.09.24 [Paper Tasting] 주식 단기 매매를 통한 차익 실현 AI를 만들고 싶다면 (0) 2023.09.21 - Motive