Fine-tuning GPT-2 from human preferences
GPT-2 모델을 인간의 피드백으로 미세 조정하여 성과를 얻었다.
774M 파라미터의 GPT-2 언어 모델을 다양한 작업에 대해 인간의 피드백으로 미세 조정하였다. 외부 레이블러의 선호도와 일치했으나, 그들의 선호가 우리와 항상 일치하지는 않았다. 요약 작업에 대해 레이블러는 입력에서 문장을 그대로 복사하는 것을 선호했으며, 이러한 학습을 통해 모델은 복사하는 경향을 학습하였다. 이는 '기계가 인간과 대화하는 것'과 관련된 안전 기술을 발전시키기 위한 노력의 일환이다.
Successfully fine-tuned the GPT-2 model using human feedback for various tasks.
We fine-tuned the 774M parameter GPT-2 language model using human feedback for various tasks. While we matched the preferences of external human labelers, these preferences did not always align with our own. For summarization tasks, labelers preferred sentences copied directly from the input, leading our model to learn this copying behavior. Our motivation is to enhance safety techniques in the context of 'machines talking to humans,' which is key to understanding human values.