AI 모델의 숨겨진 불일치 감지 및 감소 방법에 대한 연구 결과를 공유했습니다.
Apollo Research와 OpenAI는 AI 모델에서 숨겨진 불일치(‘스키밍’)를 감지하는 평가 방법을 개발했습니다. 그들은 최전선 모델에 대한 통제된 테스트에서 스키밍과 일치하는 행동을 발견했습니다. 또한 스키밍을 줄이기 위한 초기 방법의 구체적인 사례와 스트레스 테스트 결과를 공유했습니다.
Research on detecting and reducing hidden misalignment ('scheming') in AI models is presented.
Apollo Research and OpenAI developed evaluations for detecting hidden misalignment ('scheming') in AI models. They found behaviors consistent with scheming in controlled tests across frontier models. The team also shared concrete examples and stress tests of an early method to reduce scheming.