Disillusionment with mechanistic interpretability research [D]
메커니즘 해석 연구에 대한 실망감과 Anthropic의 접근 방식에 대한 우려를 표현.
Expresses disillusionment with mechanistic interpretability and concerns about Anthropic's approach.
AI가 선별한 아티클
메커니즘 해석 연구에 대한 실망감과 Anthropic의 접근 방식에 대한 우려를 표현.
Expresses disillusionment with mechanistic interpretability and concerns about Anthropic's approach.
OpenAI의 희소 모델 접근 방식을 통한 신경망 해석 가능성 탐구.
OpenAI explores mechanistic interpretability in neural networks through a sparse model approach.
10억 달러 규모의 보조금이 초인공지능 시스템의 안전성을 위한 연구를 지원합니다.
Launching $10M in grants to support research on superhuman AI safety and alignment.
OpenAI가 시각화 도구인 Microscope를 공개했습니다.
OpenAI introduces Microscope, a visualization tool for analyzing neural networks.
AI가 서로 가르치는 방식을 통해 해석 가능한 머신러닝 방법을 개발했다.
We designed a method for interpretable machine learning where AIs teach each other with human-understandable examples.