-
[Paper Tasting] 주식 주문 집행 강화학습의 Overfitting을 어떻게 완화할 수 있을까Paper Tasting 2023. 9. 19. 22:38
- 논문 제목: [2023] Towards Generalizable Reinforcement Learning for Trade Execution
- Arxiv 주소: https://arxiv.org/abs/2307.11685
- 주요 내용 및 평가
- 주식 주문 집행 강화학습에서 Overfitting을 완화하는 방법을 제안한 논문
- 이 논문에서 제안된 Overfitting을 완화하는 핵심적인 방법은 아래와 같음
- Multi-objective Regularization: Neural Network 최적화에 RL loss 외에 미래의 가격의 통계 예측 Loss 및 latent space에서의 예측 Loss를 최적화
- Data Augmentation in latent space: 실제 데이터를 생성하여 augmentation하지 않고 latent space에서 future state를 prediction하여 augmentation하였다. 보통 Encoder-Decoder 구조를 통해 decoding후의 state가 observation과 일치하도록 latent space를 학습하는데, 여기서는 latent space에서의 RL로 Optmization하였다.
- 여기서는 의사결정에 유용한 미래 상태의 통계값(평균, 표준편차)을 예측하도록 latent를 학습하고 이 latent로 의사결정하는 CASH라는 방법과 의사결정에 사용될 뿐 아니라 동시에 미래의 latent를 예측하고 이 latent로도 RL policy를 같이 학습하는 CATE라는 두가지 방법을 제안하고 있다. 실험결과상 CATE가 더 좋기는한데, 그차이가 미미한 수준이며, 오히려 train-test차이는 CASH가 더 적어 굳이 CATE를 써야 할까 하는 생각은 든다. 참고는 할만함.
- CASH에서 미래 예측 시 미래의 가격을 예측하기보다 미래의 가격의 평균과 표준편차를 예측하도록 하였다. 이 부분도 참고할 만함
- 주문 집행에 대해 연구하고자 하는 사람이라면 꼭 참고할 만한 논문. 시뮬레이터를 어떻게 만들었는지에 대한 실용적인 고민도 담고 있어서 여러모로 참고할만한 가치가 높은 논문임
- 기타 참고 사항
- 특정 시점에 몰빵매매를 하는 것은 Overfitting의 증거이다.
- network complexity를 줄이는게 효과는 없었다.
- 학습 데이터 기간을 늘려도 성능 개선 효과를 누릴 수 없었다. 시간이 흐르면서 dynamics가 바뀌는 distributionary shift 때문으로 추정된다.
'Paper Tasting' 카테고리의 다른 글
[Paper Tasting] LLM Agent를 강화학습할 수 있다? (0) 2023.09.19 [Paper Tasting] ChatGPT에 수족을 달아서 Power Up! (0) 2023.09.19 [Paper Tasting] ChatGPT로 상황 변화에 따라 유연하게 대응할 수 있는 Planner를 만들고 싶다면 (0) 2023.09.19 Paper Tasting 카테고리에 대해 (0) 2023.09.19 [Paper Tasting] 딥러닝을 주식 투자에 어떤 식으로 활용할 수 있나 (0) 2023.09.19