AI-ML·중요도 7·2026. 05. 15.·r/MachineLearning

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion [R]

── KO ──────────────────

Orthrus는 메모리 효율적인 병렬 토큰 생성을 위한 기술을 소개합니다.

Orthrus는 동결된 AR Transformer의 각 레이어에 학습 가능한 확산 주의 모듈을 주입하여 메모리 효율적인 병렬 토큰 생성을 구현합니다. 이 기술은 최대 7.8배의 토큰 생성 속도 향상과 함께 정확성을 유지하는 것을 목표로 하며, 현재까지 16%의 파라미터에 대해 학습하였습니다. 결과적으로 Orthrus는 기존의 확산 기반 언어 모델보다 더 효율적인 성능을 보여주고 있습니다.


── EN ──────────────────

Orthrus presents a technology for memory-efficient parallel token generation.

Orthrus introduces a trainable diffusion attention module injected into each layer of a frozen AR Transformer for memory-efficient parallel token generation. This approach aims for up to 7.8× improvement in token generation speed while maintaining accuracy. So far, 16% of parameters have been trained, and Orthrus demonstrates superior performance compared to existing diffusion-based language models.

원문 보기 →목록으로