-
[Paper Tasting] 고수의 지식 전수와 강화학습을 동시에Paper Tasting 2023. 10. 16. 22:15
- Motive
- 신경망 A의 prediction(classification) 능력을 다른 신경망 B에 이식하는 것을 distillation이라고 한다. distillation은 많은 데이터와 긴 학습시간을 통해 학습된 큰 신경망 A의 능력을 좀 더 작은 크기의 신경망으로 이식하려고 할 때 사용한다. distillation을 통해 계산량을 줄일 뿐 아니라 일반화 성능의 부수적인 효과도 얻을 수 있다.
- 강화학습은 기본적으로 랜덤한 행동을 하는 Agent가 시행 착오를 거쳐 문제 해결 능력을 갖춘 Agent로 학습되는 과정이지만, 배울 수 있는 다른 Agent가 있으면 그 Agent로부터 미리 기본기를 배운 후에 강화학습을 하거나, 선생님으로부터 배우면서 강화학습을 할 수도 있다. 이 논문은 후자를 통해 보다 optimal한 policy를 찾아 가는 방법을 제안하고 있다.
- 논문 제목: [2021] Diversity-driven Knowledge Distillation for Financial Trading using Deep Reinforcement Learning
- 논문 링크: https://deepfinance.csd.auth.gr/wp-content/uploads/2021/05/Diversity-driven-Knowledge-Distillation-for-Financial-Trading-using-Deep-Reinforcement-Learning.pdf
- 주요 내용 및 평가
- 금융 데이터는 매우 noisy함에 비해 데이터의 양은 제한되어 있다. 이로 인해 학습은 쉽게 Local optimal에 빠지므로, 학습할 때마다 학습된 policy가 달라질 수 있다. 이 논문은 이를 해결하기 위한 방법으로 강화학습과 distillation을 같이 진행하는 방법을 제안하고 있다.
- Distillation을 위해 이 논문에서는 서로 다른 종류의 자산(주식의 경우 종목, 외환 거래의 경우 화폐쌍)에 대해 학습된 trading policy들을 teacher로 채용하도록 제안하고 있다. 각 teacher들의 action 확률과 현재 학습 중인 student의 action확률의 cross entropy loss를 최소화 하도록 학습힌다. 학습 과정에 각 개별 teacher policy들이 지니고 있는 공통 지식이 distillation을 통해 이전될 것으로 기대한다.
- Distillation 과정은 다른 Generalization 논문(https://ai-for-value.tistory.com/15, https://ai-for-value.tistory.com/14)에서 소개된 것처럼 Ensemble policy를 이용한 regularization으로 이해될 수 있다. 차이라고 한다면 이 논문은 "각 개별 policy와의 cross entropy"의 평균을 optimize하여 regularization하고 있지만, 다른 논문들 에서는 ensemble policy를 얻은 후 하나의 ensemble policy에 대해 regularization을 하고 있다.
- 이 논문은 외환 거래 Agent를 학습하는 문제에 제안된 아이디어를 적용하고 있지만, 일반화가 중요한 다른 분야에도 활용될 수 있다. 기존의 ensemble policy를 이용한 regularization 방식과 같이 이해하면 더욱 도움이 될 것이다.
- 기타 참고 사항
- Distillation으로 인해 랜덤 행동을 덜하게 되므로 Exploration cost가 크게 줄어드는 효과를 얻을 수 있다. 즉, 학습 속도가 빨라진다.
- 강화 학습은 PPO로 진행하였는데, value function을 Huber loss로 학습했다고 한다. regression문제에서 Huber loss가 L2 loss보다 좋다는 이야기도 있으니 참고하도록 하자.
'Paper Tasting' 카테고리의 다른 글
[Paper Tasting] Average reward와 Discounted Reward에 대해 좀 더 깊이 이해하고 싶다면 (0) 2023.10.30 [Paper Tasting] 강화학습으로 무한히 즐길 수 있는 게임 환경을 만들기 (0) 2023.10.22 [Paper Tasting] PPO를 좀 더 깊이 이해하고 싶다면 (2) 2023.10.11 [Paper Tasting] 강화학습에 Ensembling policy를 적용하고 싶다면 (1) 2023.10.09 [Paper Tasting] 일반화를 위해 여러 policy를 Ensembling하며 학습하는 효과적인 방법은? (0) 2023.09.29 - Motive