전체 글
-
[Paper Tasting] 강화학습으로 무한히 즐길 수 있는 게임 환경을 만들기Paper Tasting 2023. 10. 22. 22:06
Motive 게임, 특히 패키지 게임은 몇 번 플레이하다보면 익숙해져 질리게 되고 게임을 졸업하게 된다. 이 때문에 플레이어에게 무한히 새로운 경험을 제공해 주는 것은 게임 개발자들의 바램이자 오래된 숙제이다. 이런 숙제를 해결하는 방법을 Procedural Contents Generation(PCG)로 그동안 많은 게임 개발자들이 연구하고 적용해 왔다. 그러나 이러한 방식은 개발자가 정의한 일련의 절차와 랜덤성을 결합하여 변화를 준 방식에 머물러 있어, 다양성이나 난이도 통제에 있어 정교한 설계를 요구한다. 컨텐츠 생성을 강화학습을 통해 학습된 Agent가 할 수는 없을까? 논문 제목: [2021] Adversarial Reinforcement Learning for Procedural Content ..
-
[Paper Tasting] 고수의 지식 전수와 강화학습을 동시에Paper Tasting 2023. 10. 16. 22:15
Motive 신경망 A의 prediction(classification) 능력을 다른 신경망 B에 이식하는 것을 distillation이라고 한다. distillation은 많은 데이터와 긴 학습시간을 통해 학습된 큰 신경망 A의 능력을 좀 더 작은 크기의 신경망으로 이식하려고 할 때 사용한다. distillation을 통해 계산량을 줄일 뿐 아니라 일반화 성능의 부수적인 효과도 얻을 수 있다. 강화학습은 기본적으로 랜덤한 행동을 하는 Agent가 시행 착오를 거쳐 문제 해결 능력을 갖춘 Agent로 학습되는 과정이지만, 배울 수 있는 다른 Agent가 있으면 그 Agent로부터 미리 기본기를 배운 후에 강화학습을 하거나, 선생님으로부터 배우면서 강화학습을 할 수도 있다. 이 논문은 후자를 통해 보다 o..
-
[Paper Tasting] PPO를 좀 더 깊이 이해하고 싶다면Paper Tasting 2023. 10. 11. 22:16
Motive PPO(Proximal Policy Optimization)는 강화학습을 공부하는 이들이라면 한번쯤은 공부하고 사용해보는 알고리즘이다. 또한 비교적 단순하고 쉽게 활용할 수 있기에 널리 사용되고 있는 알고리즘이기도 하다. 그러나 PPO의 가장 큰 특징인 importance sampling term과 clipping에 대해서는 피상적인 이해에 그치는 경우가 많은데, 이 논문은 이에 대한 이해를 돕고 PPO가 놓치고 있는 하나의 한계점을 보완 해 주고 있다. 논문 제목: [2021] Batch size-invariance for policy optimization Arxiv Address: https://arxiv.org/2110.00641 주요 내용 및 평가 본 논문은 PPO를 Batch si..
-
[Paper Tasting] 강화학습에 Ensembling policy를 적용하고 싶다면Paper Tasting 2023. 10. 9. 22:05
Motive 일반화 성능을 높이는 가장 효과적인 접근 방법 중 하나가 Ensembling이다. 이 논문은 Policy를 sub-policy의 Ensembling으로 정의하여 학습하는 효과적인 방법을 제안하고 있다. 논문 제목: [2022] Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble Arxiv 주소: https://arxiv.org/abs/2205.09284 주요 내용 및 평가 앞서 소개한 논문("Why Generalization in RL is Difficult...")이 개별 policy의 Generalization에 초점이 맞춰져 있다고 한..
-
[Paper Tasting] 일반화를 위해 여러 policy를 Ensembling하며 학습하는 효과적인 방법은?Paper Tasting 2023. 9. 29. 22:06
Motive Generalization은 강화학습이 현실 세계에서 활용되기 위해서는 반드시 해결해야 할 이슈이다. 이 논문은 강화학습의 Generalization에 대한 또 다른 시각과 해결 방향을 제시해 주고 있다. 논문 제목: [2021] Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability Arxiv 주소: https://arxiv.org/abs/2107.06277 주요 내용 및 평가 이 논문은 강화학습의 일반화 문제를 바라보는 시점을 바꿔 주는 논문이다. 강화학습에서 일반화가 어려운 이유를 학습에서 경험하는 MDP(Markov Decision Process)와 테스트 단계(실전)에서 경험하..
-
[Paper Tasting] 강화학습 일반화를 위한 단서의 모음Paper Tasting 2023. 9. 29. 21:23
Motive 학습할 때 경험하지 않은 상황에도 잘 대처할 수 있는 AI를 만드는 것은 이 분야를 연구하는 이들의 바람이다. 특히 강화학습으로 시뮬레이션 환경에서 잘 작동하는 AI를 만들어도 실제 환경이 그와 달라 기대하던 성능을 내지 못할 수도 있다. 이 논문은 이와 같은 이슈를 해결하기 위한 여러 아이디어를 실험을 통해 검증해 보고 있다. 논문 제목: [2019] Quantifying Generalization in Reinforcement Learning Arxiv 주소: https://arxiv.org/abs/1812.02341 주요 내용 및 평가 다양한 일반화 기법을 RL에 적용했을 때 얼마나 효과가 있는지를 간단한 게임 환경에 적용하여 검증해 본 논문. 랜덤한 환경 생성을 통해 제공되는 경험의 ..
-
[Paper Tasting] 강화학습의 일반화 성능을 높여 보자Paper Tasting 2023. 9. 24. 20:57
Motive 주식 매매 AI를 만들 때 일반화 성능을 높이는 것은 매우 어렵고 도전적이다. 혹자는 "미래는 반복될 수 있는가?"라고 회의적인 질문을 던지며, 기계학습을 통해 주식 매매 전략을 학습하는 것에 부정적인 의견을 드러내기도 한다. 그러나, 나는 인간의 본성은 바뀌지 않는다고 믿으며, 이 때문에 "역사는 반복된다"고 생각한다. 기계 학습을 통해 주식 매매를 대신해 주는 AI를 만든다는 것은 이러한 믿음에 기반하고 있다. 하지만, 과거에는 잘 작동했더라도 아직 일어나지 않은 미래에도 잘 작동하는 AI를 만드는 것은 분명히 어렵다. 그렇기에 일반화 성능을 높일 수 있는 방법을 찾는 것은 그만큼 중요하며, 끊임없이 그 방법을 발굴해 나가야 하는 가장 중요한 도전이라고 할 수 있다. 논문 제목: [202..
-
[Paper Tasting] 주식 단기 매매를 통한 차익 실현 AI를 만들고 싶다면Paper Tasting 2023. 9. 21. 23:03
Motive Machine Learning, 강화학습으로 수익을 창출하는 Trading Agent를 만들고자 할 때, 어떤 시간 단위로 의사 결정을 내리도록 할지 고민하게 된다. 사람마다 이에 대해 의견이 다를 수 있지만, 충분한 양의 학습 데이터의 확보의 용이성, 입력 데이터로 제공하기 어려운 갑작스러운 환경 변화가 발생할 가능성을 고려할 때 고빈도 매매가 Machine Learning이나 강화학습을 적용하기에 더 유리하다고 생각한다. 이 논문은 고빈도 매매를 강화학습으로 구현하는 하나의 예제를 보여 주고 있다. 논문 제목: [2022] DeepScalper: A Risk-Aware Reinforcement Learning Framework to Caputre Fleeting Intraday Oppor..