티스토리 뷰

Jitendra Malik 교수님과 Haozhi Qi의 연구를 팔로우하는 글

우선 "In-Hand Object Rotation via Rapid Motor Adaptation(RMA)"을 읽어보자. 해당 논문에서는 오직 Proprioceptive information(해당 글에서는 고유수용감각 정보라고 번역)만 이용해서 시뮬레이션에서 학습을 진행한 후 파인 튜닝 없이 실제 로봇에서 정책을 실행한다. 심지어 학습 시킨 물체도 간단한 실린더 물체였지만, 실제에서는 다른 모양, 무게를 가진 물체를 잘 돌리는 모습을 보여준다. 물론 복잡한 동작은 아니고 z axis로 회전시키는 동작이다.

이 논문의 근원은 "RMA:Rapid Motor Adaptation for Legged Robots"와 "Learning Quadrupedal Locomotion over Challenging Terrain"이다. 이 논문에서 말하는 근본적인 아이디어는 손가락 끝으로 전달되는 다양한 요소들이 컴팩트한 표현으로 압축될 수 있다는 것이다. 이런 다양한 요소들을 컴팩트하게 학습하면 제어기가 모아둔(history) 고유수용감각 정보들부터 요소들을 예측하여 다양한 물체에 적응해서 조작할 수 있다고 한다.

중요한 점은 실제 로봇에서는 물리적 요소들을 알 수가 없기 때문에 RMA에서 나온 방식을 이용해서 현재 제어입력과 과거 고유수용감각 정보들의 차이를 이용해 예측한다.

기본적인 최근 In-hand manipulation + tactile 프레임워크랑 비슷한 형태이다.

Privileged Information(해당 글에서는 특권 정보라 번역)을 정책에게 전달해준다. 다만, 직접적으로 전달하는 것이 아니라 임베딩을 통해서 9차원 정보를 8차원 임베딩을 하여 전달한다.

논문에서는 생각보다 Observation의 길이가 길다. 최근 3step에서의 관절 상태와 최근 3step에서의 명령을 합쳐서 길이 96의 1차원 벡터를 이용한다. 논문에서는 정책과 함께 임베딩 함수(Object Prop Encoder)를 PPO로 같이 학습한다.

실제 환경에서 돌리기 위해서는 결국 임베딩 된 z 값 예측인 z_hat을 예측해야 한다. 고유수용감각 정보 기록과 액션 히스토리의 차이를 이용해서adaptation module phi로 z_hat을 예측. 경로랑 특권 정보를 예측 된 z_hat으로 정책을 돌려 저장한다. 추가적으로 실제(시뮬) z 값을 저장하여 데이터 셋 B를 저장한다. 이를 이용해서 Adam을 이용해서 L2 거리로 phi를 최적화 한다.


다음으로 알아볼 논문은 "Learning In-Hand Translation Using Tactile Skin With Shear and Normal Force Sensing"이다. 해당 논문에서는 tactile skin에 대한 tactile model을 제시하여 shear, normal force를 zero-shot sim-to-real 전달이 가능하도록 한다.

논문에서는 특권 정보를 이용해 오라클 정책을 학습시킨다. 이후 observation 엔코더와 함께 tactile policy를 센서 모델과 함께 학습시킨다. 여기서도 오라클 정책을 학습시키는 방법이 이전 RMA논문과 거의 동일하다. 다른점이라면 그저 latent z를 학습하는 과정에서 tactile sensor 모델을 사용했으며, z_hat을 구하는 데에서는 실제 tactile 센서 값을 필터링하여 사용했다는 점. 즉, 큰 틀에서는 이전 논문과 다른점이 없다.


다음 논문은 "Learning Dexterous Manipulation Skills from Imperfect Simulations"이다.

이 논문은 Fig2가 전부 설명해준다. RMA논문처럼 우선 다루려는 물체를 간단하게 만들고 이를 조작하는 정책을 하나 만든다. 그리고 이 정책을 현실에서 돌린다, 이때 생기는 sim-to-real 문제는 사람이 텔레옵으로 조금씩 정리해준다. 그리고 이때 발생하는 정보를 저장한다. 그리고 모은 데이터를 이용해서 BC를 학습한다. 이렇게 되면 현실 데이터를 이용해서 Tactile 정보를 이용할 수 있는 BC Policy를 얻을 수 있다.

이전 논문에서 동일 프레임워크를 사용한다. 오라클 정책을 학습하고 latent space를 예측할 수 있는 adaptive module phi를 만들고 이를 이용해 최종 시뮬레이션에서 학습한 정책을 만드는 형태. 다만, 이를 바로 이용하지는 않고 현실에서 돌리고 Human in the loop를 통해 현실 데이터를 모아서 tactile sensor를 활용하는 형태.


이 Tactile , In-Hand Manipulation 연구 틀이 공유하는 것은 5가지로 정리할 수 있다.

  1. End-to-End가 아닌 중간 표현을 하나 둔다. 앞서 설명한 논문에서는 9차원의 특권 정보를 8차원의 latent z로 압축한다. 또 다른 논문에서는 적당한 RL-Policy를 돌려서 skill primitive, assisted teleoperation을 중간 단계로 사용하여 real demonstration으로 넘어간다. tactile을 이용하는 In-Hand Manipulation 논문에서도 실제와 맞는 텍타일 센서 모델을 이용해서 policy 학습으로 연결한다.
  2. 시뮬레이션 정보와 실제 로봇에 있는 정보의 차이를 다룬다. 다이나믹스 정보를 실제에서는 못보니 고유수용감각 정보로 latent를 추정하고, tactile 센서 또한 sim-to-real tactile skin model을 만든다. Imperfect simulation에서는 simulation이 불완전하기 때문에 sim에서 끝내지 않고 real 데이터를 모아서 그 다음 스텝으로 넘어간다. 즉 "현실에서는 똑같은 정보를 얻지 못한다" 라는 데서 시작한다.
  3. task-relevant adaptation 중심이지, 완전한 물리 재현이 중심은 아니다. 회전에 필요한 latent를 맞추는 게 중요하고, tactile 센서를 완벽하게 재현하기 보다는 shear/normal 정보를 실제로 쓸 수 있게 만들고, Imperfect simulation 또한 접촉역학을 완벽하게 맞춘 시뮬레이터를 만들려는 게 아니라 실제 데이터를 만드는 쪽으로 진행한다. "physics-perfect"보다 task-sufficient 되도록 재현한다.
  4. History, Temporal Information을 중요하게 사용한다.기본적으로 고유수용감각 정보와 액션 히스토리를 보거나, K step에서의 observation을 모아서 temporal 히스토리로 쓴다. 즉, 시간적 패턴 정보를 본다.
  5. 센서로 현재 상호작용을 얼마나 잘 요약하는지가 중요하다.

오랜만에 네이버 블로그에 있는 글 티스토리에도 올려봅니다..

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31