홈
태그

분류 전체보기 (18)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

안녕하세요 안녕하세요

컨텐츠 검색 블로그 내 검색

on policy

on policy, off policy, online RL, offline RL 차이점
Reinforcment learning 2023. 3. 29. 00:59

on policy 알고리즘은 현재의 policy를 토대로 exploration, exploitation을 한다 현재의 policy를 기반으로 업데이트를 진행하기에 off policy에 비해 더 안정적으로 학습이 진행된다 off policy 알고리즘의 뚜렷한 차이점은 replay buffer를 활용한다는 점이다. replay buffer란 agent가 exploration 또는 exploitaion을 할 때에 발생하는 (s,a,r,s',a')을 저장하는 메모리이다. 저장된 값은 value function과 policy를 update하는데에 사용되는데, 이는 곧 replay buffer에 누적된 과거 경험 데이터 (s,a,r,s',a')을 재사용하는 방식이다. 때문에 sample efficiency가 높다 ..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바