ABOUT ME

Today
Yesterday
Total
  • model-free와 model-based의 차이 / 로봇 학습 시 model-free 사용 이유
    Reinforcment learning 2023. 3. 31. 01:10

     

    우선 model이란 agent가 현재 관측된 값을 통해 다음 state의 예측을 하는 것을 의미한다(명확하지 않아서, 추후 수정하겠다)

     

    model-based 알고리즘은 agent가 policy 또는 value function을 올바르게 형성하는 것과 별개로 추가적으로 model을 학습하게 된다

    학습된 model을 통해서 현재 step으로 부터 다음 몇 step까지의 state/reward를 예측하며, 일종의 simulation(그 simulation이 아니라, 상상의 일종)을 통한 학습이 진행된다

    장점은 미래에 대한 예상을 하면서 planning을 가능케한다는 점이다. model-free 알고리즘보다 수렴 속도가 매우 빠르다고 알고 있다(이 부분은 추가 예정)

    단점은 대부분의 경우 environment내에서 model을 학습하기가 매우 어렵다는 점이다. 만약 model이 정상적으로 학습되지 않은 경우, agent의 학습이 올바르게 진행되지 않는다.

     

    model-free 알고리즘은

     

     

    그렇다면 로봇을 학습시키는데에 주로 model-free 알고리즘이 사용되는 이유는 무엇인가?

    로봇 environment의 dynamics는 고차원의 복잡한 물리적 요인이 내재되어 해석하기 매우 어렵다

    이는 model 학습을 불가능케 하기 때문에, 로봇을 학습시키는데에 model-free 알고리즘이 사용되는건 어찌보면 당연하게 보인다

     

     

    간혹 model-based를 통해 로봇을 학습시키는 경우도 존재한다

     

Designed by Tistory.