on policy
-
on policy, off policy, online RL, offline RL 차이점Reinforcment learning 2023. 3. 29. 00:59
on policy 알고리즘은 현재의 policy를 토대로 exploration, exploitation을 한다 현재의 policy를 기반으로 업데이트를 진행하기에 off policy에 비해 더 안정적으로 학습이 진행된다 off policy 알고리즘의 뚜렷한 차이점은 replay buffer를 활용한다는 점이다. replay buffer란 agent가 exploration 또는 exploitaion을 할 때에 발생하는 (s,a,r,s',a')을 저장하는 메모리이다. 저장된 값은 value function과 policy를 update하는데에 사용되는데, 이는 곧 replay buffer에 누적된 과거 경험 데이터 (s,a,r,s',a')을 재사용하는 방식이다. 때문에 sample efficiency가 높다 ..