복잡한 목표를 학습하기 위한 AI 안전 기법인 반복 증폭(iterated amplification)을 제안합니다.
본 글에서는 반복 증폭(iterated amplification)이라는 AI 안전 기법을 제안합니다. 이 기법은 복잡한 행동과 목표를 인간의 능력을 넘어서서 정의할 수 있도록 도와줍니다. 작업을 더 간단한 하위 작업으로 분해하는 방법을 보여줌으로써 이루어집니다. 현재 이 아이디어는 초기 단계에 있으며, 간단한 알고리즘적 도메인에 대한 실험만 완료했습니다. 그러나 AI 안전을 위한 확장 가능한 접근 방식이 될 것으로 예상합니다.
We propose a safety technique called iterated amplification for learning complex goals in AI.
This article introduces a safety technique known as iterated amplification, which allows for specifying complex behaviors and goals beyond human capability. It demonstrates how to decompose tasks into simpler sub-tasks instead of relying on labeled data or reward functions. Although the idea is still in its early stages, with experiments only conducted on simple algorithmic domains, it is believed to be a scalable approach to AI safety.