인간의 선호를 학습하여 안전한 AI 시스템 구축에 기여하는 알고리즘 개발.
인간이 목표 함수를 작성할 필요성을 제거하고 AI 시스템의 안전성을 높이는 연구가 진행되었습니다. DeepMind의 안전 팀과 협력하여 인간의 선호를 학습하여 두 가지 행동 중 어느 것이 더 나은지를 판단하는 알고리즘이 개발되었습니다. 이러한 방식으로 복잡한 목표를 정확하게 이해하고 위험을 줄이는 것이 목표입니다.
Developed an algorithm to build safer AI systems by learning human preferences.
The article discusses research aimed at enhancing AI safety by eliminating the need for humans to define goal functions. In partnership with DeepMind's safety team, an algorithm has been developed that learns human preferences by evaluating which of two suggested behaviors is superior. This approach seeks to accurately capture complex goals and minimize risks associated with AI behavior.