AI-ML·중요도 6·2026. 06. 01.·r/MachineLearning

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

── KO ──────────────────

LLM의 추론과 도구 호출을 위한 최적의 훈련 접근법을 논의합니다.

이 글에서는 LLM을 미세 조정하기 위한 최적의 훈련 방법에 대해 질문합니다. 사용자와 시스템 메시지를 포함한 대화 데이터에서 샘플을 생성하고 손실을 계산하는 방법에 대해 설명합니다. 또한, 감독 미세 조정 후 강화 학습을 포함해야 하는지, 그리고 리워드 함수 설계에 대한 논의도 포함되어 있습니다.


── EN ──────────────────

Discusses the best training approach for fine-tuning an LLM in terms of reasoning and tool usage.

The article questions the optimal training method for fine-tuning LLMs on conversational data that includes reasoning traces and tool-calling decisions. It explains how to create training samples from conversation history and how to mask out certain messages during loss computation. Additionally, it explores whether to incorporate reinforcement learning after supervised fine-tuning and discusses potential advantages and design considerations for reward functions.

원문 보기 →목록으로