Paper Tasting

[Paper Tasting] LLM Agent를 강화학습할 수 있다?

value_creator 2023. 9. 19. 22:44
  • 논문 제목: [2023] Reflexion: Language Agents with Verbal Reinforcement Learning
  • Arxiv 주소: https://arxiv.org/abs/2303.11366
  • 주요 내용 및 평가
    • 이 논문은 LLM Agent의 행동을 교정하는 Verbal Reinforcement Learning 방법을 제안하고 있다. 내용을 뜯어보면 LLM을 이용하여 LLM Agent의 행동에 대해 Feedback을 주어 교정하는 방식이라 새롭게 느껴질 수 있지 않지만 이 과정을 강화학습 Framework로 설명하고 있는 점이 흥미로운 포인트
    • Reflection을 통해 LLM Agent의 행동 교정에 필요한 Reward를 언어로 표현하고 이를 Prompt로 제공함으로써 LLM Agent의 Policy를 교정하도록 하였다.
    • 기존의 Machine Learning기반 Agent의 경우 많은 데이터 수집과 긴 학습시간을 거쳐야 LLM Agent의 행동을 교정할 수 있었던 것과 달리, 몇차례의 시행 착오를 통해 행동이 변화하는 모습을 바로 볼 수 있다는 장점이 있다.
    • 경험을 쌓아가며 발전해 가는 LLM Agent를 만들고 싶다면 참고할 가치가 있는 논문이다.
  • 기타 참고 사항
    • 자신의 과거 행동을 돌아보고 평가하여 Reward를 추출하고 이를 자연어로 표현하는 기능은 사람이 직접 만들어 주어야 한다. 물론 평가를 LLM을 활용하여 할 수 있으나 의도한대로 평가하게 만드는 것은 사람의 역할이다.
    • 제안된 Verbal Reinforcement Learning의 장점은 LLM Agent가 행동을 교정하며 발전하는 모습을 투명하게 볼 수 있다는 점이다. 이런 특성은 기존의 RL을 가지지 못한 큰 차이점이다.