-
논문 리뷰) RCAN : Sim-to-Real via Sim-to-Sim: Data-efficient Robotic Grasping viaRandomized-to-Canonical Adaptation NetworksSim2Real 2023. 3. 21. 00:30
2019 CVPR
몇년전부터 로보틱스 도메인에 강화학습(RL)을 적용하려는 시도가 많이 이뤄지고 있다. 그러면서 다양한 문제들이 발견되고 있는데, 대표적으로model-free RL을 학습시키기 위해 필요한 데이터 양의 문제이다. model-free RL을 이용하여 로봇을 학습시키는 많은 경우에는 학습 데이터를 굉장히 많이 필요로 한다. 대부분의 환경은 sparse reward로 정의될 뿐더러, 이미지와 같은 high-dimensional state로 value를 형성하는데의 어려움 등이 존재하기 때문이다. 문제는 데이터를 수집하는 것 자체도 쉽지 않다. 로봇이 학습되지 않은 상태에서 장시간동안 동작시키는 건 환경과의 상호작용으로 로봇이 파손되거나 마모될 가능성이 존재하고, 매번 문제가 발생하는 경우마다(힘을 과하게 받아 작동이 멈춘다던가..) 엔지니어가 다시 가동시켜야 하는 귀찮음도 존재한다.
위와 같은 문제들이 존재해 real world에서 곧바로 학습 시키는 방법 대신 simulation에서 로봇을 학습 시켜 real world로 학습된 신경망 모델을 적용하는 연구들이 sim2real이라 불리며 많이 진행되었다.
하지만 simulation이 현실을 완벽하게 모사할 수 없어 생기는 visualization/physics engine의 gap이 존재하는 상태로 sim에서 학습된 신경망은 real world에서 동작 시에 비해 성능이 현저히 떨어진다는 문제가 존재하여 domain randomization(DR)이라는 기법이 등장했다. 이는 simulation에서 이미지의 rgb를 변경시킨다던지, 물리적 변수인 damping ratio와 같은 값들을 변경 시킨다던지 하면서 신경망을 조금 더 robust하게 학습시키기 위한 방법이다. 이와 조금 다르게, sim에서 학습 시킨 RL 신경망을 real world에서 online fine-tuning으로 domain adaptation(DA)을 통해 simulation에서와 유사한(조금 못미치는..) 성능을 얻는 방법에 관한 연구들도 많이 진행되었다.
본 논문에서는 창의적인 발상으로 sim2real 대신 real2sim을 이용해서 로봇을 학습시키는 방법을 제시한다
이전 강화학습으로 이미지 정보만을 이용하여 robotic grasping task를 성공한 QT-Opt 논문에서는 real world 데이터를 수집하는데 총 4달, 약 800 로봇 시간(...)이 걸렸다고 한다. 하지만 본 논문에서는 simulation 상에서 로봇을 학습 시키되, domain randomization으로 canonical sim image를 생성하도록 GAN의 generator를 학습 시켜 임의의 영상을 canonical image로 생성하여 RL의 input으로 넣는다. 이는 real world와 simulation의 input을 동일하게 만들어서, domain adaptation을 최소화하겠다는 재밌는 발상이다
canonical image를 생성하기 위해 cGAN을 사용했으며, 학습 방법은 아래와 같다
sim에서 tray, robot arm, object등의 texture를 randomized한 image가 input이 되고,
canonical, masekd, depth image 각각이 target이 된다.
이를 구현하기 위해 구성된 Generator의 Loss function은 다음과 같다
s는 sim, c는 canonical, m은 masked, d는 depth를 의미한다
각 람다 항은 가중치로, 학습 시 적당한 값을 찾아 사용한다
l_eq_x는 MPSE를 사용했다고 하는데, 이는 빠른 수렴과 성능 향상을 위해서라고 한다
나머지 두 항인 l_eq_m과 l_eq_d는 L2 loss를 사용했다고
실제 sim2real 실험 결과, zero-shot의 경우 simulation 99% 성공률 대비 70% 성공률이 얻어졌고, 조금의 online fine-tuning을 통해 91%의 성능까지 향상 시켰다고 한다. 이때 online fine-tuning 시간은 real world에서 학습시킨 양 대비 1%라고 한다
real world에서 곧바로 학습시킨 경우에 비해 성능은 조금 부족하지만, canonical image라는 창의적인 발상으로 visual domain에서sim2real의 가능성을 보여준 논문이다
추후 Qt-Opt도 다룰 예정
수정 중