전체 글
-
게임을 AI로 생성하고 싶은 그대에게Paper Tasting 2024. 1. 9. 22:30
Motive 아무리 재미있는 게임이라도 똑같은 게임을 여러번 즐기면 질리게 되어 재미를 잃게 된다. 이 문제를 해결하기 위해 게임 제작자들은 매번 다른 경험을 할 수 있는 게임을 만드는 방법을 연구해왔고, 흔히 이를 Procedural Content Generation(PCG)이라고 한다. AI 기술의 발전은 PCG에 있어서도 기술의 발전을 예고하고 있으며, 강화학습을 접목하여 PCGRL이 탄생하기도 하였다. 또한 ChatGPT, Stable Diffusion 등 생성 AI의 등장은 AI-based Content Generation의 발전을 더욱 촉발할 것으로 예상된다. 만약 당신이 게임 콘텐츠 자동 생성에 관심이 있다면, 이 논문은 그 접근 방법과 이슈들을 알려줄 것이다. 제목: [2018] Orche..
-
LLM-based agent로 강화학습 agent의 한계를 극복해보자.Paper Tasting 2023. 12. 26. 22:26
Motive 마인크래프트는 많은 사람의 사랑을 받고 있는 sandbox game이기도 하지만, 인공 지능을 연구하는 이들에게는 인공지능을 학습하고 또 평가하는 플랫폼으로 애용되고 있기도 하다. 높은 자유도를 지닌 마인크래프트를 통해 다양한 문제를 설계하고, 이를 해결하는 능력을 검증함으로써 현실에서의 문제 해결 능력을 간접적으로 검증하곤 한다. 이 논문은 그동안 강화학습을 통해서 풀고자 했던 마인크래프트의 자원 수집 문제를 LLM-based agent를 통해서 더욱 효율적이고 높은 성능으로 해결할 수 있음을 보여 주고 있다. 논문 제목: [2023] Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large ..
-
Policy Distillation으로 강화학습의 일반화 성능 개선Paper Tasting 2023. 12. 9. 23:11
Motive 강화학습이 현실에서 활약하기 위해서 가장 필요한 덕목이 무엇이냐고 물으신다면 일반화(Generalization)이라고 말할 것이다. 특히 환경 변화가 역동적인 주식 시장의 경우 시기에 따라 종목에 따라 MDP자체가 변화하기에, Overfitting된 policy를 실전 투자에 적용하면 재산에 심각한 손해를 끼칠 수도 있다. 이 논문은 강화학습의 Generalization 성능을 개선할 수 있는 한가지 방안을 이론적으로 풀어주고 있다. Paper title: [2022] Learning Dynamics and Generalization in Reinforcement Learning Arxiv Address: https://arxiv.org/abs/2206.02126 주요 내용 및 평가 이 논문..
-
[Paper Tasting] 딥러닝으로 호가창 정보를 어떻게 처리할까?Paper Tasting 2023. 12. 4. 22:40
Motive 주식 가격과 거래량 정보를 중심으로 매매를 하고자 한다면 호가창의 상태는 매우 유용한 정보가 된다. 호가창은 각 매수 가격과 매도 가격에 매수/매도 하고자 하는 물량이 얼마나 있는지를 나타내는 정보로, 매수세와 매도세를 파악하고 향 후 단기간의 가격 변동을 예측할 수 있게 해주는 정보로 활용된다. 과연 이 정보를 어떻게 신경망이 처리하게 하면 더 좋은 성능을 얻을 수 있을까? Paper Title: [2022] The Short-term Predictability of Returns in Order Book Markets: A Deep Learning Perspective Arxiv Address: https://arxiv.org/abs/2211.13777 주요 내용 및 평가 이 논문은 단기..
-
[Paper Tasting] RL로 게임 콘텐츠를 만들수 있을까Paper Tasting 2023. 11. 26. 23:00
Motive 무한히 다양한 컨텐츠를 자동으로 만드는 것은 게임을 만드는 사람의 영원한 꿈과도 같다. 사실 Rogue를 시작으로 문명 시리즈에 이르기까지 "랜덤"과 약간의 규칙을 기반으로 한 랜덤 컨텐츠 생성 방식이 있어 왔지만, 컨텐츠의 난이도나 속성은 휴리스틱하게 제어할 수 밖에 없었다. 강화학습을 이용하여 기획의도를 충족하는 다양한 컨텐츠를 무한히 만들 수 있는 방법은 없을까? Paper Title: [2021] Learning Controllable Content Generators Arxiv Address: https://arxiv.org/abs/2105.02993 주요 내용 및 평가 만약 당신이 강화학습을 이용하여 게임 Contents를 생성하는 일에 관심이 있다면, 이 논문은 필수적으로 읽어봐..
-
[Opinion] OpenAI의 쾌속 질주: OpenAI DevDay를 보며Opinion 2023. 11. 12. 21:23
참고기사: https://m.mk.co.kr/news/it/10868530 2023년 11월 6일, OpenAI는 DevDay를 통해 ChatGPT의 개선된 사항을 알렸다. 발표내용을 접한 후 나에게 떠오른 단어는 "초격차"였다. GPT-4가 발표된 이후 모두가 그 성능에 놀랐지만, 아직 비싼 서비스 비용과 느린 반응 속도를 남은 기회로 보고 후발 주자는 좀 더 싸지만 적당한 수준의 LLM을 개발하는 방향으로 연구를 진행해 왔다. 그러나 이번 발표는 그들의 그런 전략도 재검토 할 수밖에 없는 상황으로 내몰고 있다. OpenAI는 이렇게 말하는 것 같다. "이제 나는 품질도 좋지만 훨씬 저렴하고 쾌적하게 사용할 수 있게 만들었다. 그리고 내 플랫폼 안에서 원하는 형태의 챗봇을 마음대로 만들 수..
-
[Paper Tasting] Average reward와 Discounted Reward에 대해 좀 더 깊이 이해하고 싶다면Paper Tasting 2023. 10. 30. 22:49
Motive 강화학습을 공부하는 사람이라면 만나게 되는 개념 중 discount factor라는 것이 있다. 강화학습의 목적이 앞으로 얻을 수 있는 보상의 합이 최대가 되는 action을 선택하도록 정책(policy)를 개선해나가는 것인데, 이 때 미래에 얻을 보상에 0~1사이의 상수인 discount factor(흔히 gamma로 부른다)를 곱해서 할인한다. discount factor 는 미래로 갈 수록 중첩하여 곱해지므로, 무한한 미래의 보상은 discount factor가 1이 아닌이상 0으로 수렴하게 된다. 그러나 discount factor는 최적화가 필요한 magic number이며, 실제 얻을 보상의 합과는 다른 값이므로 무한한 미래를 감안하여 계산될 수 있는 다른 방식이 필요하다. 이를 ..
-
[Opinion] 인공지능, 그리고 생성 AI 열풍에 대한 단상Opinion 2023. 10. 23. 21:54
논문을 읽고 정리하는 것을 중심으로 글을 써 오다가 가끔씩은 제 전문 분야에 대한 생각을 글로 남기는 것도 좋겠다는 생각을 하게 되었습니다. 아무래도 논문 소개는 관련 분야에 종사하시는 분들에게는 도움이 될 수 있겠지만, 한발짝 떨어져 있는 분들이 보시기에는 무슨 소리인지 알기 어려운 내용이 대부분입니다. 그래서, 배경 지식이 많지 않더라도 좀 더 쉽게 읽힐 수 있고, 생각할 거리도 드릴 수 있는 글도 간간히 쓰는 것도 좋겠다는 생각이 들었습니다. 아마 앞으로 그런 글은 Opinion이라는 카테고리로 글을 쓰게 될 것 같습니다. 2016년 알파고가 우리 사회에 충격을 던진 이후 인공 지능에 대한 투자는 급격히 늘어났습니다. 다양한 회사에서 인공 지능 관련 부서를 신설하기 시작했고, 대학은 학과를 만들..