-
offline RL에서 loss가 증가할 때Reinforcment learning 2024. 5. 27. 16:00
random policy를 이용하여 데이터를 수집하고,
수집된 버퍼만을 이용하여 offline 학습을 시켰다
이상한건 critic의 loss가 증가하는 시점에서, 실제 policy를 동작시켰을 때 성능이 향상된 것이었다
그래서 이게 뭘까.. 하다 생각해보니 당연한 것이었음
random policy로 수집된 buffer이다 보니, state-action의 pair가 매우 무작위로 되어있다
오히려 random policy로 수집된 데이터로 학습 중
critic의 loss가 상승되지 않으면, policy가 적절한 행동이 아닌 무작위 행동을 출력하고 있다고 볼 수 있다
'Reinforcment learning' 카테고리의 다른 글
model-free와 model-based의 차이 / 로봇 학습 시 model-free 사용 이유 (0) 2023.03.31 on policy, off policy, online RL, offline RL 차이점 (0) 2023.03.29