생물적 구현의 강화 학습 에이전트가 PPO와 경쟁할 수 있는지를 탐구한 연구.
이 연구는 생물학적으로 그럴듯한 방법을 사용한 에이전트가 PPO와 비슷한 성능을 낼 수 있는지를 조사합니다. 커스텀 Pong 환경에서 백프로퍼게이션 없이 작동하는 헤비안 가치 추정기를 사용하여 57%의 성능을 보였으며, PPO는 59%로 소폭 앞섰습니다. 주요 발견은 자기 플레이 중 비정상적인 상대 동적에서 빠르게 적응하는 헤비안 규칙이 빠르게 잊혀진다는 것이며, 이는 생물학적으로 그럴듯한 강화 학습의 한계로 작용합니다.
A study exploring if a biologically plausible RL agent can compete with PPO in Pong.
This study investigates whether a biologically plausible agent can achieve performance close to PPO in a custom Pong environment. Using a Hebbian value estimator with zero backpropagation, the agent attained a performance of 57%, while the PPO baseline achieved 59%. A key finding is that rapid adaptation via Hebbian rules leads to catastrophic forgetting under non-stationary dynamics, highlighting a significant challenge for biologically plausible reinforcement learning.