Paper Tasting
[Paper Tasting] Average reward와 Discounted Reward에 대해 좀 더 깊이 이해하고 싶다면
value_creator
2023. 10. 30. 22:49
- Motive
- 강화학습을 공부하는 사람이라면 만나게 되는 개념 중 discount factor라는 것이 있다. 강화학습의 목적이 앞으로 얻을 수 있는 보상의 합이 최대가 되는 action을 선택하도록 정책(policy)를 개선해나가는 것인데, 이 때 미래에 얻을 보상에 0~1사이의 상수인 discount factor(흔히 gamma로 부른다)를 곱해서 할인한다. discount factor 는 미래로 갈 수록 중첩하여 곱해지므로, 무한한 미래의 보상은 discount factor가 1이 아닌이상 0으로 수렴하게 된다. 그러나 discount factor는 최적화가 필요한 magic number이며, 실제 얻을 보상의 합과는 다른 값이므로 무한한 미래를 감안하여 계산될 수 있는 다른 방식이 필요하다. 이를 위해 제안된 것이 Average reward란 개념이다. 이 논문은 discount reward와 average reward에 대해 관계와 특성에 대해 비교 분석해 주고 있다.
- Paper title: [2021] Examining average and discounted reward optimality criteria in reinforcement learning
- Arxiv Address: https://arxiv.org/abs/2107.01348
- 주요 내용 및 평가
- 이 논문은 discount factor(gamma)에 대한 깊이 있는 통찰을 다루고 있다. 평소에 감마의 의미와 역할에 대해 궁금하였다면 참고가 될 것이다. 더불어 이를 대신할 수 있는 Average Reward의 개념과 gamma와의 관계에 대해서도 이해할 수 있는 기회가 될 것이다.
- gamma는 보상의 시간 가치를 의미한다고 볼 수 있다. 심리학적으로 사람은 먼미래에 대한 불확실성으로 인해 근미래의 보상을 더 선호하며 gamma에 이러한 점이 반영되어 있다고 볼 수 있다. 이는 경제학에서도 inflation으로 인한 돈 가치의 감소, 장기 이자가 단기 이자보다 높은 현상등에서도 드러난다. 또한, 이런 불확실성으로 인한 보상의 할인은 급작스러운 종료(갑작스러운 시스템 정지, 죽음, 자연재해)에 대한 우려로 해석될 수도 있다.
- gamma는 위와 같은 세상의 원리가 녹아 있는 계수로 이해할 수 있지만 적절한 gamma를 찾는 것은 어렵다. gamma가 1에 가까우면 실제 얻는 보상에 가까운 예측을 할 수 있지만 추정해야할 값의 범위가 커지므로(variace가 커지므로) 학습 시간이 많이 걸리며, 에러도 커진다. 반대로 gamma가 작으면 학습이 비교적 쉬워지나, 본질적으로 suboptimal이 될 가능성이 높아진다.
- Average Reward는 미래에 얻을 Reward들을 더하고 이를 시간으로 나눔으로써 미래에 매 틱당 얻을 Reward의 기대값을 의미한다. Average reward에는 gamma가 존재하지 않으므로 gamma 값을 최적화할 필요가 없으며, 최적화 대상이 추구해야할 근본적 목표와 일치한다. 그리고 가장 큰 장점은 episode길에 변화에 따라 추정해야할 value function의 값의 scale이 크게 변하지 않아 episode의 길이가 들쑥날쑥인 경우나 끝을 알 수 없는 경우 유용하다. 개인적으로는 매매 행위의 끝을 정할 수 없는 주식 매매와 같은 분야에 활용해 볼만하다고 생각한다.
- 기타 참고 사항
- 보상이 Sparse할 수록 gamma가 작은 편이 강화학습 결과가 좋다고 한다. 아마도 Sparse한 경우 gamma가 크면 credit assignment 문제의 난이도가 높아지기 때문이 아닌가 싶다.