모델의 성능을 개선하기 위한 PoC 아이디어에 관한 논의.
이 글은 Mixture of Experts(MoE) 내에서 형제 전문가의 가중치를 업데이트하는 전문가를 삽입하여 추론 시간에 학습하는 아이디어를 다룹니다. 이미 필요한 모든 구성요소가 존재했으나, 그동안 MoE 내에서 시도된 적이 없어서 PoC를 진행해보았습니다. 이 결과가 어느 정도 효과가 있었으며, 다른 사람들의 의견을 듣고 싶습니다.
Discussion on a PoC idea aimed at improving model performance.
This article discusses an idea for inference-time learning by inserting experts dedicated to updating sibling expert weights within a Mixture of Experts (MoE) model. All necessary components were already available, yet no one had attempted it within MoE until now, so a small proof of concept (PoC) was conducted. It somewhat worked, and the author is eager to hear others' thoughts.