AI-ML·중요도 8·2026. 05. 25.·r/MachineLearning

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

── KO ──────────────────

델타 주의 잔차가 출시되어 깊은 레이어에서 라우팅 붕괴를 개선합니다.

델타 주의 잔차(DAR)는 잔여 연결을 개선하는 업그레이드로, 깊은 레이어에서의 라우팅 붕괴 문제를 해결합니다. 기존의 누적 히든 상태 대신 델타 값을 사용해 라우팅의 정확도를 높이고, != 1.8배의 교차 레이어 라우팅을 향상시킵니다. 델타 블록은 적은 파라미터 오버헤드로 성능을 높이면서도 메모리 사용량을 감소시킵니다.

── EN ──────────────────

Delta Attention Residuals are released to improve routing collapse in deep layers.

Delta Attention Residuals (DAR) are a drop-in upgrade to existing residual connections, addressing routing collapse issues prevalent in deep layers. By utilizing delta values instead of cumulative hidden states, DAR improves cross-layer routing by 1.8 times. The delta block introduces minimal parameter overhead while enhancing performance and reducing memory usage.

원문 보기 →목록으로