-
[Paper Tasting] 강화학습 일반화를 위한 단서의 모음Paper Tasting 2023. 9. 29. 21:23
- Motive
- 학습할 때 경험하지 않은 상황에도 잘 대처할 수 있는 AI를 만드는 것은 이 분야를 연구하는 이들의 바람이다. 특히 강화학습으로 시뮬레이션 환경에서 잘 작동하는 AI를 만들어도 실제 환경이 그와 달라 기대하던 성능을 내지 못할 수도 있다.
- 이 논문은 이와 같은 이슈를 해결하기 위한 여러 아이디어를 실험을 통해 검증해 보고 있다.
- 논문 제목: [2019] Quantifying Generalization in Reinforcement Learning
- Arxiv 주소: https://arxiv.org/abs/1812.02341
- 주요 내용 및 평가
- 다양한 일반화 기법을 RL에 적용했을 때 얼마나 효과가 있는지를 간단한 게임 환경에 적용하여 검증해 본 논문.
- 랜덤한 환경 생성을 통해 제공되는 경험의 다양성을 제어해가며 일반화 수준을 측정하였다. 만약 학습할 때는 게임에서 고득점을 올리지만 다른 랜덤 시드로 생성된 테스트 케이스에서 점수가 낮다면 일반화가 잘 되지 않은 것으로 평가할 수 있다.
- 이 논문에서 실험을 통해 일반화 효과가 확인된 방법을 정리하면 아래와 같다.
- PPO보다 IMPALA가 일반화 성능이 높았다.
- L2 Regularization와 dropout도 일반화 성능에 영향을 미쳤다. 적용한 편이 그렇지 않은 경우보다 일반화 성능은 좋으나 과하면 학습과 테스트 둘 다 성능이 하락한다.
- Data augmentation, Batch Normalization(CNN layer에 적용)도 일반화 성능 개선에 효과가 있었다.
- 적절한 수준의 entropy bonus는 일반화 성능을 높이는데 기여하고 있다고 한다. 그러나 이는 이 논문에서 실험 환경으로 삼은 게임들이 deterministic한 환경이기에 효과를 본 것으로 환경이 충분히 stocastic하면 이 효과는 제한적일 수 있다.
- 이 논문이 내가 연구하고 있는 문제에도 적용될 수 있을지는 다소 의문이 들기는 하지만, 일반화 문제로 고민하고 있다면 한번 테스트 해보면 좋을 것 같다.
- 기타 참고 사항
- 왜 IMPALA가 PPO보다 일반화 성능이 좋은지에 대한 설명이 없다. 굳이 추정해 보자면 리플레이 버퍼를 상대적으로 크게 운용할 수 있는 IMPALA가 policy update에 많은 샘플을 동원할 수 있어서가 아닐까 한다.
'Paper Tasting' 카테고리의 다른 글
[Paper Tasting] 강화학습에 Ensembling policy를 적용하고 싶다면 (1) 2023.10.09 [Paper Tasting] 일반화를 위해 여러 policy를 Ensembling하며 학습하는 효과적인 방법은? (0) 2023.09.29 [Paper Tasting] 강화학습의 일반화 성능을 높여 보자 (0) 2023.09.24 [Paper Tasting] 주식 단기 매매를 통한 차익 실현 AI를 만들고 싶다면 (0) 2023.09.21 [Paper Tasting] ChatGPT로 SW 회사를 만들 수 있다고? (0) 2023.09.19 - Motive