AI-ML·중요도 8·2018. 10. 31.·OpenAI Blog

Reinforcement learning with prediction-based rewards

── KO ──────────────────

예측 기반 보상으로 강화 학습 에이전트를 탐색하도록 유도하는 방법인 RND가 인간 성적을 초월했습니다.

RND(랜덤 네트워크 증류)는 강화 학습 에이전트가 환경을 탐색하도록 호기심을 자극하는 예측 기반 방법입니다. 이 방법은 Montezuma’s Revenge에서 평균 인간 성과를 초과하는 데 성공했습니다. RND는 강화 학습 분야에 중대한 영향을 미칠 것으로 기대됩니다.


── EN ──────────────────

RND, a prediction-based reward method, enables RL agents to surpass average human performance in Montezuma's Revenge.

Random Network Distillation (RND) is a prediction-based method developed to encourage reinforcement learning agents to explore their environments driven by curiosity. Remarkably, this approach has been shown to surpass average human performance on the game Montezuma’s Revenge for the first time. The implications of RND could be transformative within the reinforcement learning domain.

원문 보기 →목록으로