VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델
VibeThinker-3B는 3B 파라미터로 Opus 4.5 성능을 초과하는 모델이다.
VibeThinker-3B는 3B 파라미터를 기반으로 한 소형 밀집 모델로, Opus 4.5의 추론 성능을 초과하는 것을 목표로 하고 있다. 이 모델은 Spectrum-to-Signal 사후학습 기법을 사용하여 커리큘럼 지도 미세조정과 다중 도메인 강화학습, 오프라인 자기증류 기법을 결합하여 학습한다. 이를 통해 더 적은 파라미터로도 뛰어난 성능을 발휘할 수 있도록 설계되었다.
VibeThinker-3B is a small dense model surpassing Opus 4.5 performance with only 3B parameters.
VibeThinker-3B is a small dense model designed to exceed the inference performance of Opus 4.5 using only 3B parameters. It incorporates a learning pipeline based on Spectrum-to-Signal post-training, curriculum-guided fine-tuning, multi-domain reinforcement learning, and offline self-distillation. This design allows the model to achieve impressive performance while maintaining a lower parameter count.