Reinforcement learning with prediction-based rewards
예측 기반 보상으로 강화 학습 에이전트를 탐색하도록 유도하는 방법인 RND가 인간 성적을 초월했습니다.
RND, a prediction-based reward method, enables RL agents to surpass average human performance in Montezuma's Revenge.
AI가 선별한 아티클
예측 기반 보상으로 강화 학습 에이전트를 탐색하도록 유도하는 방법인 RND가 인간 성적을 초월했습니다.
RND, a prediction-based reward method, enables RL agents to surpass average human performance in Montezuma's Revenge.