Paper Tasting

Policy Distillation으로 강화학습의 일반화 성능 개선

value_creator 2023. 12. 9. 23:11
  • Motive
    • 강화학습이 현실에서 활약하기 위해서 가장 필요한 덕목이 무엇이냐고 물으신다면 일반화(Generalization)이라고 말할 것이다. 특히 환경 변화가 역동적인 주식 시장의 경우 시기에 따라 종목에 따라 MDP자체가 변화하기에, Overfitting된 policy를 실전 투자에 적용하면 재산에 심각한 손해를 끼칠 수도 있다. 이 논문은 강화학습의 Generalization 성능을 개선할 수 있는 한가지 방안을 이론적으로 풀어주고 있다.
  • Paper title: [2022] Learning Dynamics and Generalization in Reinforcement Learning
  • Arxiv Address: https://arxiv.org/abs/2206.02126
  • 주요 내용 및 평가
    • 이 논문에 제안하는 강화학습의 일반화 성능 개선 방법은 "Distillation"이다. Distillation은 이미 학습된 Teacher network의 inference 능력을 Student network로 옮기는 것을 말하며, 보통 복잡한 network로 학습을 마친 후 좀 더 경량화된 network로 inference 능력을 옮기기 위해 실행된다. network의 복잡도를 낮추는 과정에서 자연스럽게 일반화 성능이 개선된다고 알려져 있어 distillation을 통한 일반화 성능 개선이 새로울게 없다고 생각될 수도 있다. 하지만 이 논문에서는 network 복잡도와 상관없이 random initialization된 network에 강화학습된 value/policy network을 distillation하는 과정에서 일반화 특성이 개선됨을 보여 주고 있다.
    • RL에서 학습이 진행됨에 따라 overfitting이 심해지는 원리(이유)를 논문의 설명을 풀어서 이해하면 다음과 같이 이해 할 수 있다. 학습 초기에는 network의 node간 역할의 분화가 덜 진행되어, 하나의 state에 대해 update가 발생시 다른 node들도 영향을 받아 unseen state에 대한 value 계산이나 action output에 영향을 미치게 된다(이걸 이 논문에서는 interference라고 표현하고 있다.). 이 과정에 의해 일반화가 일어난다. 하지만 학습이 진행됨에 따라 node간의 분화가 발생하게 되고 interference는 점점 줄어 들어 unseen state에 대해서는 update가 발생하지 않는 외우기 단계에 진입하게 된다. 즉, 일반화가 어려운 network가 되어간다. 실제로 이 논문의 실험에 따르면 학습 초기의 value network은 weight의 변화의 rank가 낮아 적은 수의 node만이 변화하는 현상을 보이나, 학습이 진행됨에 따라 rank가 높아지는 모습을 보이고 있다.
    • 따라서 분화가 진행되지 않은 fresh network으로의 distillation을 실행하면, 그 과정에서는 interference가 발생하므로 일반화 성능을 확보할 수 있다.
    • 이 논문이 말한대로 distillation은 일반화 성능 개선에 높은 확률로 도움이 될 것이다. 그러나 이 방식 역시 모든 문제를 해결해 주지 않으며, 실제로 이 논문에서 보인 실험에서 개선되지 않거나 오히려 Teacher보다 성능이 떨어진 경우도 있었다. 그러나, Distillation을 적용해보지 않을 이유는 없으며, test set에대해서 검증해보고 개선이 없으면 안쓰면 그만이다. 일반화에 갈급하다면 이 논문을 꼭 참고해 보길 바란다.
  • 기타 참고 사항
    • Dense reward를 사용하는 value-based policy나 value network의 경우 overfitting이 빨리 일어나서 "외우기" 상태에 진입하므로 일반화 성능이 policy network보다 먼저 떨어지기 시작한다고 한다. 직관적으로 생각할 때 정확한 "값"을 추정해야 하는 value network의 경우 보다 쉽게 overfitting에 빠질 것 같다는 생각이 든다.
    • Overfitting 현상이 학습 절차적 관점에서는 나쁜 점만 있는 것은 아니다. 학습의 안정성과 수렴성을 높여주는 긍정적인 면도 있다. 그 대가로 Overfitting에 쉽게 빠질 뿐이다.