AI-ML·중요도 7·2018. 07. 04.·OpenAI Blog
Learning Montezuma’s Revenge from a single demonstration
── KO ──────────────────
단일 시연으로 몬테주마의 복수를 학습한 에이전트에 대한 연구.
연구팀은 단 하나의 인간 시연을 통해 몬테주마의 복수에서 74,500점이라는 높은 점수를 기록한 에이전트를 훈련시켰습니다. 이 알고리즘은 인간의 시연에서 선택한 특정 상태들로부터 게임을 시작하여 게임 점수를 최적화하는 방식으로 학습을 진행합니다. 사용된 강화 학습 알고리즘은 OpenAI Five에서도 활용된 PPO입니다.
── EN ──────────────────
Study on an agent learning Montezuma’s Revenge from a single demonstration.
The research team trained an agent to achieve a high score of 74,500 on Montezuma’s Revenge using just a single human demonstration. The algorithm starts from carefully chosen states from the demonstration and optimizes the game score through gameplay. The reinforcement learning algorithm employed is PPO, which is also used in OpenAI Five.