-
[Paper Tasting] 강화학습에 Ensembling policy를 적용하고 싶다면Paper Tasting 2023. 10. 9. 22:05
- Motive
- 일반화 성능을 높이는 가장 효과적인 접근 방법 중 하나가 Ensembling이다. 이 논문은 Policy를 sub-policy의 Ensembling으로 정의하여 학습하는 효과적인 방법을 제안하고 있다.
- 논문 제목: [2022] Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble
- Arxiv 주소: https://arxiv.org/abs/2205.09284
- 주요 내용 및 평가
- 앞서 소개한 논문("Why Generalization in RL is Difficult...")이 개별 policy의 Generalization에 초점이 맞춰져 있다고 한다면, 이 논문의 초점은 Generalization 성능이 강화된 Ensemble policy에 대한 학습에 있다. 즉, 앞의 논문은 각각의 개별 policy가 별도의 학습 process와 Sample된 Environment에서 학습하되 Ensemble policy로 Reguralization하여 개별 policy의 일반화 성능을 높이고자 한 것인 반면, 이 논문은 하나의 학습 프로세스 및 Environment에서 학습하되, 그 Policy를 여러 sub-policy의 average로 모델링하여 일반화 성능을 높이고자 한 것이다.
- 이 논문이 제안한 방법의 Key feature를 요약하면 다음과 같다.
- 학습하고자하는 Policy는 여러 sub-policy의 평균으로 정의되는 Ensemle policy로 표현하였다. 이 Ensemble policy가 Behavior policy이자, Target policy가 된다.
- 학습 방법은 기본적으로 PPO이며, Ensemble Proximal Policy Optimization (EPPO)로 명명하고 있다.
- Policy는 Ensemble policy를 Optimize하며, Sub-policy도 emsemble behavior policy와의 importance sampling을 통해 update한다. Sub-policy의 입장에서는 두 backward path에 의해 optmize되는 셈이다.
- 각 Sub-policy는 Ensemble policy와의 KL Divergence가 커지지 않도록 Regularization된다. 이것은 앞의 논문의 아이디어와 일맥 상통하는 면이 있다.
- Ensembling 효과를 높이기 위해 Sub-policy간 Diversity를 강화하기 위한 sub-policy간 KL Divergence Loss도 채용하고 있다. KL Divergence Loss가 없으면 sub-policy가 유사해져서 Ensembling 효과가 사라질 것이다.
- 이 논문은 각 sub-policy가 서로 다른 MDP에 특화되었다기 보다는 동일한 MDP를 해결하는 다양한 전문가로 분화되어 학습되어 Ensembling되는 방식에 가깝다. 즉, sub-policy가 경험은 공유하되 해법을 나눠서 분담하고 있는 셈이다.
- 방법론의 차이를 종합하여 볼 때 제안된 방법은 Ensembling의 본질인 Mixture of Expert에 충실하다고 할 수 있지만, 경험을 공유하기 때문에 앞의 논문보다는 Generalization 측면에서는 더 효과가 떨어지지 않을까 생각한다.
- 기타 참고 사항
- Ensemble policy의 경우 Averge policy이므로 action probability가 smoothing되어 각 sub-policy 입장에서는 더 Exploration을 많이 하게 된다. 즉 더 다양한 경험을 촉진하는 효과를 얻을 수 있다.
- sub-model간 diversity가 variance를 줄이고, overfitting을 완화하며, ensembling의 generalization 성능을 높인다는 기존 연구도 있다.
- 제안된 방법을 주식 주문 집행 문제에 적용하여 실험 결과를 보여 주고 있다.
'Paper Tasting' 카테고리의 다른 글
[Paper Tasting] 고수의 지식 전수와 강화학습을 동시에 (0) 2023.10.16 [Paper Tasting] PPO를 좀 더 깊이 이해하고 싶다면 (2) 2023.10.11 [Paper Tasting] 일반화를 위해 여러 policy를 Ensembling하며 학습하는 효과적인 방법은? (0) 2023.09.29 [Paper Tasting] 강화학습 일반화를 위한 단서의 모음 (0) 2023.09.29 [Paper Tasting] 강화학습의 일반화 성능을 높여 보자 (0) 2023.09.24 - Motive