Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]
모델의 능력 차원 상관관계를 탐색하는 연구에 대한 논의.
Discussion on exploring capability dimension interdependencies in model training.
AI가 선별한 아티클
모델의 능력 차원 상관관계를 탐색하는 연구에 대한 논의.
Discussion on exploring capability dimension interdependencies in model training.
베이지안 최적화를 사용한 GP와 선형 모델, 신경망 비교에 대한 의견 요청
Request for opinions on Bayesian optimization using GPs vs linear models and neural networks.
Word2Vec의 출력층 가중치가 단어 벡터가 되는 이유에 대한 질문.
A question about why output weights in Word2Vec become word vectors.