LLM-based agent로 강화학습 agent의 한계를 극복해보자.

Paper Tasting 2023. 12. 26. 22:26

LLM-based Agent의 문제 해결 방식은 사람과 비숫하여 이해하기 쉽고 복잡한 문제를 계층적으로 분해해서 해결할 수 있다.

Motive
- 마인크래프트는 많은 사람의 사랑을 받고 있는 sandbox game이기도 하지만, 인공 지능을 연구하는 이들에게는 인공지능을 학습하고 또 평가하는 플랫폼으로 애용되고 있기도 하다. 높은 자유도를 지닌 마인크래프트를 통해 다양한 문제를 설계하고, 이를 해결하는 능력을 검증함으로써 현실에서의 문제 해결 능력을 간접적으로 검증하곤 한다. 이 논문은 그동안 강화학습을 통해서 풀고자 했던 마인크래프트의 자원 수집 문제를 LLM-based agent를 통해서 더욱 효율적이고 높은 성능으로 해결할 수 있음을 보여 주고 있다.
논문 제목: [2023] Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory
Arixv address: https://arxiv.org/abs/2305.17144
주요 내용 및 평가
- 결론부터 말하면, 만약 당신이 만들고자 하는 Agent가 문제 해결에 도움이 되는 외부 지식을 활용할 수 있고 환경 인식 결과를 텍스트화할 수 있다면, 이 논문은 높은 수준의 Agent를 만드는데 좋은 참고 자료가 될 것이다.
- Agent를 연구하는 이들은 마인크래프트 환경에서 가장 난이도가 높은 다이아몬드를 획득하는 문제를 해결하는 Agent를 만드는 연구를 해왔다. 강화학습은 이 문제를 해결하는 방법으로 많이 사용되어 왔지만, 다이아몬드를 획득하기 위해서는 너무 긴 horizon의 탐색이 필요하여 매우 비효율적이었다. 이 논문에서 LLM-based agent는 마인크래프트 wiki에서 문제 해결에 필요한 정보를 얻고, 이를 이용하여 목표 달성에 필요한 sub-goal을 도출한다. 그리고 각 sub-goal을 recursive하게 분해한 후, Planning를 통해 sub-goal을 달성하기 위한 행동 계획을 수립한다. Plan의 실행 결과는 텍스트화하여 제공하고, 계획이 실패할 경우 Plan을 수정하여 실행한다. 또한 각 Plan의 실행 결과는 메모리에 기록되어 다음에 유사한 sub-goal을 위한 Planning 시 참고하도록 한다. 이와 같은 일련의 과정은 사람이 일을 하는 과정과 비슷하고, 그 과정이 제대로 실행되는지 확인하기 쉬워, 신경망과 같은 블랙박스 방식의 의사 결정보다 더 투명하고 안전하다.
- 제안된 LLM-based agent는 다이아몬드뿐 아니라 대부분의 자원을 획득하는 테크트리를 배울 수 있었고, 또한 실제로 획득할 수 있었다. wiki를 통해서 이미 방법을 배울 수 있기에 당연하다고도 할 수 있지만, 사람이 축적한 지식을 활용할 수 있다는 점은 Intelligent Agent를 만드는 새롭고도 효율적인 방식을 제안하고 검증했다고 볼 수 있다.
기타 참고 사항
- 제안된 방법은 기존의 LLM-based agent를 통한 문제 해결 방법과 큰틀에서 보면 비숫하다. 굳이 차이점이라고 한다면 wiki를 통해 얻은 정보를 활용하여 문제 해결의 효율을 높였다는 점을 들 수 있다.
- 이 논문의 방법을 활용하기 위해서는 활용할 수 있는 기존 지식이 있는지, 행동의 결과를 텍스트화 할 수 있는지, 환경의 변화를 텍스트화 할 수 있는지를 살펴봐야 할 것이다.
- 이 논문에서는 Action을 키보드, 마우스 조작으로 매핑해주는 기능을 script로 구현하였다. 사실 이 부분은 강화학습으로 구현할 수 있으나, 이 논문은 강화학습으로 구현시 효율적이지 않을 뿐더러, Action간 구분이 불명확해지는 문제가 있다고 지적하고 있다. High Level decision은 LLM-based agent가, low level decision은 RL-based agent가 하는 hierarchical approach가 유력한 문제 해결 방식일 것이라 생각했지만, 해결하고자 하는 문제와 환경에 따라서는 아닐 수도 있다는 점은 교훈으로 취할만하다.
- LLM-based agent의 장점으로 adaptability도 빼놓을 수 없다. 사전에 학습된 문제만 풀 수 있는 RL-based agent와는 달리 LLM-based agent는 환경의 변화와 문제의 변화에 adaptive하게 작동할 수 있다. 이 부분은 LLM-based agent가 지닌 가장 큰 차별점이자 경쟁력이다.
- LLM-based agent에게 사고의 중간 과정을 출력하도록 함으로써 Chain-of-Thought 효과를 얻을 수 있다.

'Paper Tasting' 카테고리의 다른 글

언어로 명령을 내려서 게임을 플레이하는 AI를 만들 수 있을까. (0)	2024.03.21
게임을 AI로 생성하고 싶은 그대에게 (0)	2024.01.09
Policy Distillation으로 강화학습의 일반화 성능 개선 (2)	2023.12.09
[Paper Tasting] 딥러닝으로 호가창 정보를 어떻게 처리할까? (2)	2023.12.04
[Paper Tasting] RL로 게임 콘텐츠를 만들수 있을까 (0)	2023.11.26

ABOUT ME

AI for Value AI for Value

'Paper Tasting' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Paper Tasting' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바