Paper Tasting

[Paper Tasting] 강화학습의 일반화 성능을 높여 보자

value_creator 2023. 9. 24. 20:57
  • Motive
    • 주식 매매 AI를 만들 때 일반화 성능을 높이는 것은 매우 어렵고 도전적이다. 혹자는 "미래는 반복될 수 있는가?"라고 회의적인 질문을 던지며, 기계학습을 통해 주식 매매 전략을 학습하는 것에 부정적인 의견을 드러내기도 한다.
    • 그러나, 나는 인간의 본성은 바뀌지 않는다고 믿으며, 이 때문에 "역사는 반복된다"고 생각한다. 기계 학습을 통해 주식 매매를 대신해 주는 AI를 만든다는 것은 이러한 믿음에 기반하고 있다.
    • 하지만, 과거에는 잘 작동했더라도 아직 일어나지 않은 미래에도 잘 작동하는 AI를 만드는 것은 분명히 어렵다. 그렇기에 일반화 성능을 높일 수 있는 방법을 찾는 것은 그만큼 중요하며, 끊임없이 그 방법을 발굴해 나가야 하는 가장 중요한 도전이라고 할 수 있다.
  • 논문 제목: [2021] Robust Predictable Control
  • Arxiv 주소: https://arxiv.org/abs/2109.03214
  • 주요 내용 및 평가
    • 이 논문은 강화학습에 있어 일반화 성능을 높이는 방법으로 model의 complexity를 낮추는 방법을 제안하고 있다. 다시 말해, 강화학습시 환경에서 주는 직접적 보상(이득)의 누적합을 최대화 하는 것 외에 "미래의 예측 정확도를 높일 수 있도록" model을 학습하도록 하여 Agent가 좀 더 단순한 latent space에서 강화되도록 하는 방법을 제안하고 있다.
    • 내용을 세부적으로 뜯어 보면 결국 신경망을 latent space에서의 미래 예측 정확도를 높이도록 auxiliary reward를 부여하여 학습하는 방식을 제안하고 있는 것을 알 수 있다. 차이점이라면 기존의 방식이 미래 예측 정확도를 Loss로 formulation하여 신경망을 학습하도록 하였다면, 이 논문에서는 이를 Reward로 formulation하여 agent의 action에도 영향을 미치도록 하였다는 점이다. 즉, agent의 의사 결정도 미래 예측 정확도를 높이도록 변화해 간다.
    • 제안된 방식이 지니는 장점은 action이 environment의 변화를 야기할 때 유용하다. 즉, 자신이 유리한 환경을 만들어가면서 보상을 획득할 수 있는 것이다. 이 논문이 예로 든 것처럼 자율 주행을 한다면, 교통 상황 예측이 어려운 붐비는 경로 보다는 차가 별로 없는 곳으로 가는 식으로 학습될 것이다.
    • 강화학습 관점에서 제안된 방식은 일반화를 위해 두가지 장점을 가지는 것으로 정리할 수 있다.
      • 의사 결정에 있어 미래 상태를 예측할 수 있는 feature를 제공한다는 것은 매우 유용한 정보 제공의 역할을 한다. 미래 예측에 도움이 되는 latent space를 함께 학습하는 것은 이런 측면에서 성능 향상에 기여할 수 있다.
      • 미래 예측 정확도를 높이도록 action이 학습되어 일반화 측면에서 유리할 수 있다.
    • 논문에서도 언급하고 있지만, 제안된 방법은 적은 bit로 state를 표현할 수 있도록(sparse coding) information minization term을 reward에 포함 시켰기 때문에 enovrionment reward가 발생할 수 있는 복잡한 state를 회피할 수 있는 위험이 있다. 복잡하고 어려운 state에 가장 맛있는 과일이 있을 수도 있는 것이다.
    • Trading의 경우 action이 market environment를 변화 시키지 않으므로 제안된 방법의 효과는 제한적이다. Self-predictive loss를 적용하는 기존 방식 대비 효과의 차이가 없을 수 있다.
    • 그럼에도 불구하고 강화학습의 Generalization에 대해 고민이 많은 사람은 패러다임의 확장을 위해서 참고할만한 논문이다.
  • 기타 참고 사항
    • 적은 bit로 State를 표현할 수 있다는 것은 Agent의 행동을 모델링하기 쉽다는 의미이기도 하며, State의 Generalization이 잘되어 있음을 의미한다. 이 논문이 Generalization 성능을 높이는 방법을 채택한 접근 방빕이다.
    • 미래에 대한 예측, 또는 의사결정에 필요한 유용한 정보에 대한 예측을 강화학습과 동시헤 진행하는 것은 의사 결정에 필요한 정보를 제한해 주어 Overfitting을 완화해 주는 효과도 있다.