메커니즘 해석 연구에 대한 실망감과 Anthropic의 접근 방식에 대한 우려를 표현.
글쓴이는 2024년경의 메커니즘 해석 가능성 연구에 관심을 가지게 되었으나, 최근 Anthropic의 연구에 대해 불만을 표명하고 있다. 특히, 자연어 오토인코더에 대한 접근 방식이 블랙박스 기술이라는 점과 기본 메트릭을 비교하지 않은 점을 문제 삼고 있다. 또한, 설명이 허구적(confabulated)일 수 있다는 점이 해석 가능성의 본질을 무의미하게 만든다고 주장한다. 그는 Anthropic이 해석 가능성보다는 통제 문제 해결에 초점을 맞추고 있다고 우려하고 있다.
Expresses disillusionment with mechanistic interpretability and concerns about Anthropic's approach.
The author, a computer science undergrad, expresses disappointment with recent mechanistic interpretability research from Anthropic. They critique the natural language autoencoders as a black box technique that lacks proper metric comparisons. The notion of 'confabulations' in explanations undermines the whole purpose of interpretability. Overall, the author worries that Anthropic's focus on alignment over genuine interpretability could skew the field's direction.