AI-ML·중요도 7·2026. 06. 04.·r/MachineLearning

On-policy distillation: one of the hottest terms on PapersWithCode [R]

── KO ──────────────────

온정 정책 증류에 대한 최근 AI 연구 정보를 공유합니다.

Hugging Face의 오픈 소스 팀에서 온 Niels는 PapersWithCode에서 최신 AI 기술인 온정 정책 증류(OpD)를 소개하고 있습니다. 이 기술은 Qwen 3.6, 3.7, GLM-5.1 및 DeepSeek-V4와 같은 모델의 핵심 포스트 트레이닝 기법입니다. PapersWithCode에서는 관련 논문과 비디오 강의 등 추가 자료를 찾아볼 수 있습니다.


── EN ──────────────────

Sharing recent AI research on on-policy distillation.

Niels from the Hugging Face open-source team introduces the latest AI technique, on-policy distillation (OpD), on PapersWithCode. This method is key post-training for models like Qwen 3.6, 3.7, GLM-5.1, and DeepSeek-V4. Additional resources, including related papers and video lectures, are available on PapersWithCode.

원문 보기 →목록으로