-
[Paper Tasting] 주식 단기 매매를 통한 차익 실현 AI를 만들고 싶다면Paper Tasting 2023. 9. 21. 23:03
- Motive
- Machine Learning, 강화학습으로 수익을 창출하는 Trading Agent를 만들고자 할 때, 어떤 시간 단위로 의사 결정을 내리도록 할지 고민하게 된다. 사람마다 이에 대해 의견이 다를 수 있지만, 충분한 양의 학습 데이터의 확보의 용이성, 입력 데이터로 제공하기 어려운 갑작스러운 환경 변화가 발생할 가능성을 고려할 때 고빈도 매매가 Machine Learning이나 강화학습을 적용하기에 더 유리하다고 생각한다. 이 논문은 고빈도 매매를 강화학습으로 구현하는 하나의 예제를 보여 주고 있다.
- 논문 제목: [2022] DeepScalper: A Risk-Aware Reinforcement Learning Framework to Caputre Fleeting Intraday Opportunities
- Arxiv Address: https://arxiv.org/abs/2201.09058
- 주요 내용 및 평가
- 주식 및 채권에 대한 고빈도 매매를 Deep Reinforcement Learning을 통해 구현하는 방법을 제시하고 있는 논문. 기존의 방법과 차별화된 요소로 다음과 같은 점들을 제시하고 있다.
- LOB 정보(1분 단위)에 기반한 micro-level market state, 일봉 정보(OHLCV)와 이로부터 계산된 기술적 지표(11가지)에 기반한 macro-level market state, 보유 cash, position, 잔여 시간을 표현하는 private state의 세가지 종류의 state를 각각 LSTM을 이용하여 encoding 한 후 이어 붙이는 방식의 state encoding
- Risk(Volatility) 측정을 auxiliary task로 하여 state encoding network를 강화학습과 동시에 학습 하는 방식. Risk는 매 스텝마다 발생하는 return(이익)값의 표준편차이다.
- Hindsight Reward를 추가하여 장기적인 이득/손해를 Action Value계산에 반영하도록 한 Reward shaping 방식. 문제가 MDP이므로 자연스럽게 반영될 수도 있으나, 장기적인 손익이 policy에 반영하도록 촉진하는 효과를 기대할 수 있다.
- 강화학습 방법은 Branching Dueling Q-Network(BDQ) 방식을 취하고 있다. 주문을 넣을 가격의 Q value와 수량의 Q value를 quantize하여 표현한 두개의 분리된 branch로 출력하도록 하였다. non-stationary environment인 market environment에 적합하지 않은 Determistic policy인 Q network를 채용한 점은 아쉽다.
- 실험 데이터가 중국 주가 지수 선물 2가지와 국고채 4가지라서 제안된 방법이 얼마나 일반적으로 적용될 수 있을지는 의문이다. High Frequency Trading을 연구하고 있다면 이 논문에서 제안한 핵심 아이디어만 참고하는 수준으로 이 논문을 보면 좋을 것 같다.
- 주식 및 채권에 대한 고빈도 매매를 Deep Reinforcement Learning을 통해 구현하는 방법을 제시하고 있는 논문. 기존의 방법과 차별화된 요소로 다음과 같은 점들을 제시하고 있다.
- 기타 참고 사항
- 왜 가격 예측이 아니라 volatility를 auxiliary task로 하였을까? 이 논문에서는 noisy하고 flucation이 심한 가격 예측은 매우 어렵지만, 그에 비해 volatility 예측은 그에 비해 상대적으로 쉬우며, voliatility가 의사 결정에 중요한 factor로 작용하기 때문이라고 이야기하고 있다.
- BDQ에서 제안된 Q value를 표현하기 위한 두가지 Action branch의 network architecture는 참고해볼 가치가 있어 보인다. 두개의 branch는 state value를 표현하는 layer를 공유하고 각 brach에서는 advantage를 계산하여 state value와 합쳐서 Q-value를 계산하는 방식을 취하고 있는데, 두 branch가 state value를 공유하는 구조는 참고할 가치가 큰 아이디어라고 생각된다. 단 non-stationary한 주식 시장에 적용하는 건 재고해 볼 필요가 있다.
'Paper Tasting' 카테고리의 다른 글
[Paper Tasting] 강화학습 일반화를 위한 단서의 모음 (0) 2023.09.29 [Paper Tasting] 강화학습의 일반화 성능을 높여 보자 (0) 2023.09.24 [Paper Tasting] ChatGPT로 SW 회사를 만들 수 있다고? (0) 2023.09.19 [Paper Tasting] LLM Agent들이 협력하여 일하게 만들기 위한 노하우는? (0) 2023.09.19 [Paper Tasting] LLM Agent에게도 훈수쟁이가 필요하다 (0) 2023.09.19 - Motive