could refusal layers be masking dialect-conditioned safety failures in MoE models [d]
AAVE사용이 MoE 모델의 안전 실패를 가릴 수 있다는 연구 결과 발표.
Study reveals AAVE usage may mask safety failures in MoE models.
AI가 선별한 아티클
AAVE사용이 MoE 모델의 안전 실패를 가릴 수 있다는 연구 결과 발표.
Study reveals AAVE usage may mask safety failures in MoE models.