In-Hand Manipulation via Motion Cones 저자 : Nikhil Chavan-Dafle, Rachel Holladay, and Alberto Rodriguez 논문 : https://arxiv.org/abs/1810.00219 작성 : 이해구 Intro 모션 콘은 마찰이 있는 밀림 동작에서 강체가 가질 수 있는 모션의 집합이다. 마찰 접촉에 대한 underactuated 시스템이라고 볼 수 있겠다. Horizontal pushing task에서 point contact일 때 line contact 일때에 대한 연구에서 발전됐고, 효율적인 경로 계획, 제어의 기초로 사용됐다. 논문에서는 평면에서의 테스크들을 조금 더 일반화시켜 모션 콘을 만드는 방법에 대해 보여준다...
1. Human teacher란 무엇인가? 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법. 이때, oracle은 True reward function에 대한 information을 가짐 2. Preference labeling 취득 방법 (by Human teacher) 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고) 여기서, H: segment σ의 길이, r: ground truth reward (from oracle) 3. Re..
Prehensile pushing: In-hand Manipulation with Push-Primitives 저자 : Nikhil Chavan-Dafle and Alberto Rodriguez 논문 : https://dspace.mit.edu/handle/1721.1/98114 작성 : 이해구 물체를 잡고 있는 그리퍼가 있고, 물체와 닿아 있는 환경이 있다. 즉 최소 물체에는 접촉점이 3개가 있게 된다. 우리가 물체를 움직이게 싶다면 접촉점 3개에 힘을 가하면 된다(힘을 발생 시킨다).접촉점에 힘을 가하려면 우선 접촉 모델이 있어야 한다. 접촉 모델은 접촉에 의해 생긴 기하학적인 조건과 마찰 조건의 특징을 나타내고 이들이 물체를 집었을 때의 안정성과 물체의 움직임에 주는 영향을 나타낸다. ..
Adaptive control은 쉽게 말해 모델의 불확실성을 파라미터를 조절하여 해결하는 제어 방식이다. Adaptive control에 사용되는 개념 중에 integral adaptive law가 있다. Integral adaptive law는 파라미터가 불확실하거나 time variant(시간에 따라 변할 때)할 때 파라미터를 추정할 때 사용 된다. 즉, Adaptive control의 큰 틀에서 estimator에 사용 되는 개념이다. Integral adaptive law는 이름에서도 알 수 있듯이 시스템 오차 신호를 적분하여 파라미터 추정치를 업데이트 하게 된다. 시스템의 출력과 원하는 reference 출력 사이의 오차를 시간에 대해 적분하여 이를 파라미터 추정에 사용한다. 시간에 따른 파..
Abstract RL의 time limit을 어떻게 다뤄야 하는지에 대해 연구 Time limit을 적절하게 고려하지 않을 경우 일어나는 문제점 state aliasing invalidation of experience replay 위 문제점들로 인한 sub-optimal policy학습과 training instability 발생 RL적용 시 time horizon 종류별 time limit에대한 관점 제시 Fixed period 이 경우 time limit은 환경의 부분으로 생각해야하며 Markov property를 위반하지 않기위해선 남은 시간(remaining time)에 대한 개념을 고려해야한다. Indefinite period Time limit은 환경으로써 고려될 필요 없고, 오직 학습을 위..