Evolved Policy Gradients는 메타러닝 접근법으로, 빠른 훈련을 가능하게 합니다.
Evolved Policy Gradients(EPG)는 학습 에이전트의 손실 함수를 발전시키는 실험적 메타러닝 접근법입니다. 이 방법은 새로운 작업에 대한 빠른 훈련을 가능하게 하며, EPG로 훈련된 에이전트는 훈련 동안 설정되지 않았던 테스트 시간의 기본 작업에서 성공할 수 있습니다. 예를 들어, 훈련 중에 배치된 위치와 다른 쪽에서 물체로의 내비게이션을 배울 수 있습니다.
Evolved Policy Gradients is a meta-learning approach allowing fast training on novel tasks.
Evolved Policy Gradients (EPG) is an experimental meta-learning approach that evolves the loss function of learning agents. This method enables fast training on novel tasks, allowing agents trained with EPG to succeed at basic tasks during the test that were outside their training regime. For instance, they can learn to navigate to an object located on the opposite side of the room from where it was placed during training.