DeepSeek V4의 전체 논문 출시, FP4 QAT와 안정성 개선 발표.
DeepSeek에서 V4 논문 전체 버전을 발표했다. FP4 양자화 인식 훈련(FP4 QAT) 및 두 가지 안정성 메커니즘이 포함되어 있다. 연구에서 FP4 QAT를 통해 2배의 속도 향상과 99.7%의 재콜을 유지하며, SwIGLU 클램프 및 예측적 라우팅을 통해 훈련 안정성을 향상시켰다. 새로운 보상 모델이 도입되어 더 적은 인간 라벨링으로 평가 과정을 통합할 수 있게 되었다.
DeepSeek V4 paper released, introducing FP4 QAT and stability improvements.
DeepSeek has released the full version of the V4 paper. It includes FP4 Quantization Aware Training (QAT) and two mechanisms for improved stability. The research shows a 2x speedup with 99.7% recall using FP4 QAT, along with methods like SwiGLU clamping and anticipatory routing for training stability. A new generative reward model has also been introduced, which requires minimal human labeling while providing a unified evaluation process.