NOML-NOML: hierarchical TD3 + anchor policy for flight control [P]
최신 RL 알고리즘으로 비행 제어를 위한 NOML을 오픈소스로 공개했습니다.
비행 제어를 위해 커스텀 강 reinforcement learning 알고리즘 NOML을 개발하고 오픈소스로 공유했습니다. NOML은 구조적 문제를 해결하기 위해 표준 TD3에서 세 가지 구조적 변화를 추가하여 안정적인 비행 제어를 가능하게 합니다. 주요 요소로는 앵커 정책, 계층적 액터, 그리고 미러 학습이 있으며, 이 구조 덕분에 탐색 노이즈 없이도 안정적인 성능을 보였습니다.
Introduced NOML, a custom RL algorithm for flight control, now open-sourced.
I have developed and open-sourced a custom reinforcement learning algorithm, NOML, for continuous flight control. NOML addresses structural issues encountered with vanilla TD3 by introducing three key changes: anchor policy, hierarchical actor, and mirror learning. These enhancements allow for stable flight control while minimizing reliance on exploration noise, leading to effective performance. The code and detailed write-up are available online.