Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL [R]
마스크 확산 언어 모델이 RL 에이전트의 텍스트 기반 세계 모델로 강력함을 보여줍니다.
마스크된 확산 언어 모델(MDLM)은 다음 상태 생성을 좌에서 우로 분해하는 오토회귀 LLM의 한계를 극복합니다. MDLM은 모든 조건 방향을 동일한 훈련 신호로 학습하여 더 나은 결과를 나타내며, 실험적으로는 조정된 MDLM이 여러 메트릭에서 기존 모델보다 4배 우수한 성능을 보였습니다. 또한, GRPO 훈련 방식이 MDLM 기반 훈련에서 15%의 성공률 향상을 가져왔습니다.
Masked diffusion language models demonstrate strong performance as text-based world models for RL agents.
Masked diffusion language models (MDLM) overcome the limitations of autoregressive LLMs by factorizing next-state generation. They learn every conditional direction from the same training signal, resulting in significantly improved performance. Fine-tuned MDLMs outperform AR baselines by up to 4x in various metrics, while GRPO training on MDLM rollouts shows up to a 15% gain in task success rates. This showcases the effectiveness of MDLMs in agentic reinforcement learning settings.