Jitendra Malik 교수님과 Haozhi Qi의 연구를 팔로우하는 글우선 "In-Hand Object Rotation via Rapid Motor Adaptation(RMA)"을 읽어보자. 해당 논문에서는 오직 Proprioceptive information(해당 글에서는 고유수용감각 정보라고 번역)만 이용해서 시뮬레이션에서 학습을 진행한 후 파인 튜닝 없이 실제 로봇에서 정책을 실행한다. 심지어 학습 시킨 물체도 간단한 실린더 물체였지만, 실제에서는 다른 모양, 무게를 가진 물체를 잘 돌리는 모습을 보여준다. 물론 복잡한 동작은 아니고 z axis로 회전시키는 동작이다. 이 논문의 근원은 "RMA:Rapid Motor Adaptation for Legged Robots"와 "Learning ..
연구를 시작할 때 나는 종종 새로운 아이디어가 주는 흥분에 먼저 끌렸다. 문제를 수학적으로 정식화할 수 있고, 모델 구조도 떠오르고, 구현의 윤곽도 보이면 이미 절반쯤은 해낸 것 같은 기분이 들었다. 이번에도 그랬다. discrete action과 continuous action을 함께 순차적으로 생성하는 policy를 설계하고, 이를 Dubins TSP에 적용해 볼 수 있지 않을까 생각했다. 문제는 분명 흥미로웠다. 방문 순서라는 이산적 결정과 heading angle이라는 연속적 결정을 한 모델 안에서 함께 다루는 그림은 아름다워 보였다. 한동안은 그 구조 자체가 연구의 충분한 이유처럼 느껴졌다. 하지만 조금 더 들여다보자 다른 질문이 생겼다. “이 문제가 정말 지금 내가 시간을 쏟아부을 만한 문제인..
이번 포스팅은 무인기나 로봇의 다개체 시스템을 위한 알고리즘을 연구하고 적용해보면서 경험해본 군집 시스템 운용을 위한 구조화에 대한 두서없는 개인적인 생각이다. 군집 무인기나 멀티 로봇 시스템을 다룰 때 단일 개체인 상황과 가장 다른 부부을 꼽자면 군집 구조이다. 이 때 군집 구조는 크게 중앙 집중, 계층화, 분산화 구조처럼 3가지를 나눌 수 있다.이 구조를 또 다시 의사결정 혹은 정보공유(통신) 2가지 측면에서 나눠서 생각할 수 있게 된다.특히 정보공유에 (통신)이라고 붙인 이유는, 두 개념이 서로 강하게 의존적이지만 때에 따라서 분리될 수 있기 떄문에 이렇게 불렀다. 그럼 대충 크게 6가지 정도되는 경우의 수가 나오게 되는 것이다. 저 2가지 측면[의사결정/정보공유(통신)]으로 나눠진다는 것이 좀 생..
분산형 multi agent 제어 분야에서는 주로 agent들의 합의(consensus)가 얼마나 빨리 이뤄지는 지가 주된 관심사이다.예를 들어, formation 제어에서 모든 agent들이 정해진 거리를 유지하는 것과, randezvous 제어에서 공통된 위치로 모이는 것과 같은 일들이 중요한 것이다. multi agent 제어 분야가 일반적인 single agent제어와 가장 다른점은 agent간의 통신을 고려해야 한다는 점이다. 이 때 agent들이 어떤 모양으로 연결되어 통신 가능한지 나타낸 것이 network topology인데, 이 형상이 consensus가 이뤄지는 수렴 속도에 큰 영향을 미친다. 이 network topology는 무선 통신의 경우 통신 거리에 따라 다르게 형성 될 수 도..
뉴턴 메서드는 함수의 해를 근사적으로 찾는 수치해석 기법이며 변수의 시작점에서 Taylor Expansion을 통해 2차 함수를 근사하고 이후 근사한 2차 함수의 값이 감소(또는 증가)하는 방향으로 이동시키며 최소 값(또는 최대 값)을 만족시키는 최적 해를 찾습니다.*일반적으로 극값이지만 편의를 위해 최소 값을 찾는 문제로 제한*함수가 컨벡스하다면 locally optimal solution = globally optimal solution입니다. 그렇지 않다면 globally optimal solution임을 보장할 수 없습니다.경사 하강법의 1차 근사와 달리 2차 함수로 근사하기 때문에 근사하는 지점 부근에서 상대적으로 더 자세히 모델링하므로 성능이 더 좋습니다.이러한 수치적으로 해를 구하는 방법은 ..
Imitation Bootstrapped Reinforcement Learning저자 : Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh논문 : https://arxiv.org/abs/2311.02198작성 : 이해구, gpt il은 확실히 샘플링 효율이 좋다. 그래서 특정 테스크를 로봇에게 학습 시킬때 실제로 RL보다 잘 작동하는데, 당연하게도 소위 말하는 "전문가의 작업 데이터"를 모으는 게 힘들다. 따라서 il은 근본적인 확장성 문제를 가지게 된다. 비슷한 작업이라도 약간만 달라지면 fine 튜닝이 필요하게 된다. 이를 해결하기 위해 RL에서 IL 을 효율적인 자율 향상 방법으로 사용할 수 있다면 매우 좋은 프레임워크가 된다. 논문에서는 모방학습 부트스트랩 RL..
노션에다 정리한걸 그대로 가져와봤는데 안되서 html을 긁어왔더니 되네요.. 노션에서 작성된 형식을 그대로 옮기는게 꽤 불편하네요Continuous State Space Model of Linear Time invariant Systemx˙=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t),t≥0{\dot x} = Ax(t)+Bu(t) \\ y(t) = Cx(t)+ Du(t), t\geq 0x˙=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t),t≥0, (1) The matrix exponential function asddteAt=AeAt=eAtA{d\over dt}e^{At} =Ae^{At}=e^{At}A dtdeAt=AeAt=eAtA, (2) Multiplying both sides of (1) ..
작성자 : UNIST 기계공학과 석사과정생 임가은 ㅡAuto-regressive 란, transformer [1] 의 decoder가 작동하는 방식입니다. 다음 출력을 생성할 때, 이전의 예측 결과를 고려하는 방식이에요. 예를 들어 아직 미완성인 어떤 input sequence (y_1, y_2, ...y_t) 문장이 주어졌을 때, 문장의 다음 단어인 y_t+1 단어를 예측하는 과정에서 앞의 단어들이 등장할 확률을 conditional probability로 고려해 주는 거에요. ㅡ잠깐 사전지식으로, transformer 는 크게 encoder와 decoder로 구성되어 있습니다. 대부분의 유명한 nearul sequence transduction model들은 encoder와 decoder 조합을 구..