ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Paper Tasting] 강화학습에 Ensembling policy를 적용하고 싶다면
    Paper Tasting 2023. 10. 9. 22:05
    • Motive
      • 일반화 성능을 높이는 가장 효과적인 접근 방법 중 하나가 Ensembling이다. 이 논문은 Policy를 sub-policy의 Ensembling으로 정의하여 학습하는 효과적인 방법을 제안하고 있다.
    • 논문 제목: [2022] Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble
    • Arxiv 주소: https://arxiv.org/abs/2205.09284
    • 주요 내용 및 평가
      • 앞서 소개한 논문("Why Generalization in RL is Difficult...")이 개별 policy의 Generalization에 초점이 맞춰져 있다고 한다면, 이 논문의 초점은 Generalization 성능이 강화된 Ensemble policy에 대한 학습에 있다. 즉, 앞의 논문은 각각의 개별 policy가 별도의 학습 process와 Sample된 Environment에서 학습하되 Ensemble policy로 Reguralization하여 개별 policy의 일반화 성능을 높이고자 한 것인 반면, 이 논문은 하나의 학습 프로세스 및 Environment에서 학습하되, 그 Policy를 여러 sub-policy의 average로 모델링하여 일반화 성능을 높이고자 한 것이다.
      • 이 논문이 제안한 방법의 Key feature를 요약하면 다음과 같다.
        • 학습하고자하는 Policy는 여러 sub-policy의 평균으로 정의되는 Ensemle policy로 표현하였다. 이 Ensemble policy가 Behavior policy이자, Target policy가 된다.
        • 학습 방법은 기본적으로 PPO이며, Ensemble Proximal Policy Optimization (EPPO)로 명명하고 있다.
        • Policy는 Ensemble policy를 Optimize하며, Sub-policy도 emsemble behavior policy와의 importance sampling을 통해 update한다. Sub-policy의 입장에서는 두 backward path에 의해 optmize되는 셈이다.
        • 각 Sub-policy는 Ensemble policy와의 KL Divergence가 커지지 않도록 Regularization된다. 이것은 앞의 논문의 아이디어와 일맥 상통하는 면이 있다.
        • Ensembling 효과를 높이기 위해 Sub-policy간 Diversity를 강화하기 위한 sub-policy간 KL Divergence Loss도 채용하고 있다. KL Divergence Loss가 없으면 sub-policy가 유사해져서 Ensembling 효과가 사라질 것이다.
      • 이 논문은 각 sub-policy가 서로 다른 MDP에 특화되었다기 보다는 동일한 MDP를 해결하는 다양한 전문가로 분화되어 학습되어 Ensembling되는 방식에 가깝다. 즉, sub-policy가 경험은 공유하되 해법을 나눠서 분담하고 있는 셈이다.
      • 방법론의 차이를 종합하여 볼 때 제안된 방법은 Ensembling의 본질인 Mixture of Expert에 충실하다고 할 수 있지만, 경험을 공유하기 때문에 앞의 논문보다는 Generalization 측면에서는 더 효과가 떨어지지 않을까 생각한다.
    • 기타 참고 사항
      • Ensemble policy의 경우 Averge policy이므로 action probability가 smoothing되어 각 sub-policy 입장에서는 더 Exploration을 많이 하게 된다. 즉 더 다양한 경험을 촉진하는 효과를 얻을 수 있다.
      • sub-model간 diversity가 variance를 줄이고, overfitting을 완화하며, ensembling의 generalization 성능을 높인다는 기존 연구도 있다.
      • 제안된 방법을 주식 주문 집행 문제에 적용하여 실험 결과를 보여 주고 있다.
Designed by Tistory.