๐๐๐ฅ๐ญ๐ ๐๐ญ๐ญ๐๐ง๐ญ๐ข๐จ๐ง ๐๐๐ฌ๐ข๐๐ฎ๐๐ฅ๐ฌ [R]
๋ธํ ์ฃผ์ ์์ฐจ๊ฐ ์ถ์๋์ด ๊น์ ๋ ์ด์ด์์ ๋ผ์ฐํ ๋ถ๊ดด๋ฅผ ๊ฐ์ ํฉ๋๋ค.
๋ธํ ์ฃผ์ ์์ฐจ(DAR)๋ ์์ฌ ์ฐ๊ฒฐ์ ๊ฐ์ ํ๋ ์ ๊ทธ๋ ์ด๋๋ก, ๊น์ ๋ ์ด์ด์์์ ๋ผ์ฐํ ๋ถ๊ดด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๊ธฐ์กด์ ๋์ ํ๋ ์ํ ๋์ ๋ธํ ๊ฐ์ ์ฌ์ฉํด ๋ผ์ฐํ ์ ์ ํ๋๋ฅผ ๋์ด๊ณ , != 1.8๋ฐฐ์ ๊ต์ฐจ ๋ ์ด์ด ๋ผ์ฐํ ์ ํฅ์์ํต๋๋ค. ๋ธํ ๋ธ๋ก์ ์ ์ ํ๋ผ๋ฏธํฐ ์ค๋ฒํค๋๋ก ์ฑ๋ฅ์ ๋์ด๋ฉด์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๊ฐ์์ํต๋๋ค.
Delta Attention Residuals are released to improve routing collapse in deep layers.
Delta Attention Residuals (DAR) are a drop-in upgrade to existing residual connections, addressing routing collapse issues prevalent in deep layers. By utilizing delta values instead of cumulative hidden states, DAR improves cross-layer routing by 1.8 times. The delta block introduces minimal parameter overhead while enhancing performance and reducing memory usage.