Paper Tasting

[Paper Tasting] 주식 주문 집행 강화학습의 Overfitting을 어떻게 완화할 수 있을까

value_creator 2023. 9. 19. 22:38
  • 논문 제목: [2023] Towards Generalizable Reinforcement Learning for Trade Execution
  • Arxiv 주소: https://arxiv.org/abs/2307.11685
  • 주요 내용 및 평가
    • 주식 주문 집행 강화학습에서 Overfitting을 완화하는 방법을 제안한 논문
    • 이 논문에서 제안된 Overfitting을 완화하는 핵심적인 방법은 아래와 같음
      • Multi-objective Regularization: Neural Network 최적화에 RL loss 외에 미래의 가격의 통계 예측 Loss 및 latent space에서의 예측 Loss를 최적화
      • Data Augmentation in latent space: 실제 데이터를 생성하여 augmentation하지 않고 latent space에서 future state를 prediction하여 augmentation하였다. 보통 Encoder-Decoder 구조를 통해 decoding후의 state가 observation과 일치하도록 latent space를 학습하는데, 여기서는 latent space에서의 RL로 Optmization하였다.
      • 여기서는 의사결정에 유용한 미래 상태의 통계값(평균, 표준편차)을 예측하도록 latent를 학습하고 이 latent로 의사결정하는 CASH라는 방법과 의사결정에 사용될 뿐 아니라 동시에 미래의 latent를 예측하고 이 latent로도 RL policy를 같이 학습하는 CATE라는 두가지 방법을 제안하고 있다. 실험결과상 CATE가 더 좋기는한데, 그차이가 미미한 수준이며, 오히려 train-test차이는 CASH가 더 적어 굳이 CATE를 써야 할까 하는 생각은 든다. 참고는 할만함.
      • CASH에서 미래 예측 시 미래의 가격을 예측하기보다 미래의 가격의 평균과 표준편차를 예측하도록 하였다. 이 부분도 참고할 만함
    • 주문 집행에 대해 연구하고자 하는 사람이라면 꼭 참고할 만한 논문. 시뮬레이터를 어떻게 만들었는지에 대한 실용적인 고민도 담고 있어서 여러모로 참고할만한 가치가 높은 논문임
  • 기타 참고 사항
    • 특정 시점에 몰빵매매를 하는 것은 Overfitting의 증거이다.
    • network complexity를 줄이는게 효과는 없었다.
    • 학습 데이터 기간을 늘려도 성능 개선 효과를 누릴 수 없었다. 시간이 흐르면서 dynamics가 바뀌는 distributionary shift 때문으로 추정된다.