Gemma 4는 다중 토큰 예측 기능으로 토큰 생성 속도를 최대 3배 빨라지게 합니다.
Gemma 4는 다중 토큰 예측(MTP) 드래프터와 결합하여 동시에 여러 토큰을 생성할 수 있는 기능을 제공합니다. 이 과정에서 추측 디코딩을 활용해 모델이 단일 패스에서 토큰을 검증할 수 있어, 품질 손실 없이 최대 3배 빠른 추론 속도를 달성합니다. 이러한 기술은 인공지능 모델의 효율성을 크게 향상시킬 수 있습니다.
Gemma 4 enhances token generation speed by up to 3x with multi-token prediction.
Gemma 4 features multi-token prediction (MTP) drafters that utilize speculative decoding to generate multiple tokens in parallel. This allows the model to verify tokens in a single pass, achieving up to ~3x faster inference without any loss of quality. Such advancements can significantly enhance the efficiency of AI models.