-
on policy, off policy, online RL, offline RL 차이점Reinforcment learning 2023. 3. 29. 00:59
on policy 알고리즘은 현재의 policy를 토대로 exploration, exploitation을 한다
현재의 policy를 기반으로 업데이트를 진행하기에 off policy에 비해 더 안정적으로 학습이 진행된다
off policy 알고리즘의 뚜렷한 차이점은 replay buffer를 활용한다는 점이다.
replay buffer란 agent가 exploration 또는 exploitaion을 할 때에 발생하는 (s,a,r,s',a')을 저장하는 메모리이다.
저장된 값은 value function과 policy를 update하는데에 사용되는데, 이는 곧 replay buffer에 누적된 과거 경험 데이터 (s,a,r,s',a')을 재사용하는 방식이다. 때문에 sample efficiency가 높다
online RL은 어쨌든 agent가 environment와 상호작용하며 policy 또는 value function을 update하는 경우를 말한다
앞서 언급한 on policy 알고리즘 또는 off policy 알고리즘을 사용해서 학습한다
offline RL은 exploration 없이 주어진 데이터 셋만을 활용(이는 s,a -> r,s',a' 곧 exploitation을 의미한다)하여 올바른 value map을 형성하는 것을 목표로 한다. 이는 전문가들의 시연데이터나 기존에 쌓아둔 데이터만으로 학습을 가능케 한다는 엄청난 장점이 있다.! offline RL로 학습을 시키기 위해 기존 off policy 알고리즘들을 사용할 수 있지만, Q를 overestimate하는 문제가 발생한다
자세한 내용은 CQL 관련 자료를 읽어보길 추천한다 https://bair.berkeley.edu/blog/2020/12/07/offline/
offline RL을 앞장서서 연구하고 계신 UC Berkeley sergey levine 교수님의 영상
추후 포스팅에서는 Imitation learning과 offline RL의 차이점에 대해 다루겠다
수정 중. .
'Reinforcment learning' 카테고리의 다른 글
offline RL에서 loss가 증가할 때 (0) 2024.05.27 model-free와 model-based의 차이 / 로봇 학습 시 model-free 사용 이유 (0) 2023.03.31