DPO
-
"좋아요", "싫어요"로 언어모델을 개선해 보자.Paper Tasting 2024. 4. 8. 23:47
Preference feedback 보다 "좋아요", "싫어요"가 더 확보하기 좋은 feedback이다. Motive ChatGPT가 세상에 놀라움을 줄 수 있었던 비결 중 하나를 꼽자면 RLHF(Reinforcement Learning with Human Feedback)라고 할 수 있다. 사람이 원하는 대로 반응을 만족스럽게 하지 못했던 언어모델이 RLHF를 거치면서 사람이 원하는 반응을 하는 존재로 거듭나게 되었던 것이다. 그 이후 DPO(Direct Preference Optimization)와 같은 좀 더 단순하면서도 효과적인 feedback-alignment 방법이 제안되기도 하였다. 하지만 이런 방법들은 preference feedback을 필요로 하므로 데이터 수집 비용이 비싸고 상당히 n..