변환기의 기하학적 안정성을 예측하는 숨겨진 비율을 발견했다.
변환기 디코더 모델의 Lyapunov 스펙트럼 분석을 통해 MLP와 주의 스펙트럼 노름의 비율이 최종 계층에서 모델의 안정성을 예측하는 데 중요한 역할을 한다는 것을 발견했다. 이 비율이 0.5에서 2 사이일 때 모델이 안정적으로 유지된다. 관련 GitHub 저장소도 제공되고 있다.
A hidden ratio in transformers predicts geometric stability.
The author analyzed decoder transformer models using Lyapunov spectral analysis and discovered that the ratio of MLP and attention spectral norms indicates model stability. Maintaining this ratio between 0.5 and 2 helps keep the model stable in its final layers. A GitHub repository for further exploration is also linked.