Reinforcment learning
-
offline RL에서 loss가 증가할 때Reinforcment learning 2024. 5. 27. 16:00
random policy를 이용하여 데이터를 수집하고,수집된 버퍼만을 이용하여 offline 학습을 시켰다 이상한건 critic의 loss가 증가하는 시점에서, 실제 policy를 동작시켰을 때 성능이 향상된 것이었다 그래서 이게 뭘까.. 하다 생각해보니 당연한 것이었음 random policy로 수집된 buffer이다 보니, state-action의 pair가 매우 무작위로 되어있다 오히려 random policy로 수집된 데이터로 학습 중critic의 loss가 상승되지 않으면, policy가 적절한 행동이 아닌 무작위 행동을 출력하고 있다고 볼 수 있다
-
model-free와 model-based의 차이 / 로봇 학습 시 model-free 사용 이유Reinforcment learning 2023. 3. 31. 01:10
우선 model이란 agent가 현재 관측된 값을 통해 다음 state의 예측을 하는 것을 의미한다(명확하지 않아서, 추후 수정하겠다) model-based 알고리즘은 agent가 policy 또는 value function을 올바르게 형성하는 것과 별개로 추가적으로 model을 학습하게 된다 학습된 model을 통해서 현재 step으로 부터 다음 몇 step까지의 state/reward를 예측하며, 일종의 simulation(그 simulation이 아니라, 상상의 일종)을 통한 학습이 진행된다 장점은 미래에 대한 예상을 하면서 planning을 가능케한다는 점이다. model-free 알고리즘보다 수렴 속도가 매우 빠르다고 알고 있다(이 부분은 추가 예정) 단점은 대부분의 경우 environment내..
-
on policy, off policy, online RL, offline RL 차이점Reinforcment learning 2023. 3. 29. 00:59
on policy 알고리즘은 현재의 policy를 토대로 exploration, exploitation을 한다 현재의 policy를 기반으로 업데이트를 진행하기에 off policy에 비해 더 안정적으로 학습이 진행된다 off policy 알고리즘의 뚜렷한 차이점은 replay buffer를 활용한다는 점이다. replay buffer란 agent가 exploration 또는 exploitaion을 할 때에 발생하는 (s,a,r,s',a')을 저장하는 메모리이다. 저장된 값은 value function과 policy를 update하는데에 사용되는데, 이는 곧 replay buffer에 누적된 과거 경험 데이터 (s,a,r,s',a')을 재사용하는 방식이다. 때문에 sample efficiency가 높다 ..