
Imitation Bootstrapped Reinforcement Learning저자 : Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh논문 : https://arxiv.org/abs/2311.02198작성 : 이해구, gpt il은 확실히 샘플링 효율이 좋다. 그래서 특정 테스크를 로봇에게 학습 시킬때 실제로 RL보다 잘 작동하는데, 당연하게도 소위 말하는 "전문가의 작업 데이터"를 모으는 게 힘들다. 따라서 il은 근본적인 확장성 문제를 가지게 된다. 비슷한 작업이라도 약간만 달라지면 fine 튜닝이 필요하게 된다. 이를 해결하기 위해 RL에서 IL 을 효율적인 자율 향상 방법으로 사용할 수 있다면 매우 좋은 프레임워크가 된다. 논문에서는 모방학습 부트스트랩 RL..
노션에다 정리한걸 그대로 가져와봤는데 안되서 html을 긁어왔더니 되네요.. 노션에서 작성된 형식을 그대로 옮기는게 꽤 불편하네요Continuous State Space Model of Linear Time invariant Systemx˙=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t),t≥0{\dot x} = Ax(t)+Bu(t) \\ y(t) = Cx(t)+ Du(t), t\geq 0x˙=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t),t≥0, (1) The matrix exponential function asddteAt=AeAt=eAtA{d\over dt}e^{At} =Ae^{At}=e^{At}A dtdeAt=AeAt=eAtA, (2) Multiplying both sides of (1) ..

작성자 : UNIST 기계공학과 석사과정생 임가은 ㅡAuto-regressive 란, transformer [1] 의 decoder가 작동하는 방식입니다. 다음 출력을 생성할 때, 이전의 예측 결과를 고려하는 방식이에요. 예를 들어 아직 미완성인 어떤 input sequence (y_1, y_2, ...y_t) 문장이 주어졌을 때, 문장의 다음 단어인 y_t+1 단어를 예측하는 과정에서 앞의 단어들이 등장할 확률을 conditional probability로 고려해 주는 거에요. ㅡ잠깐 사전지식으로, transformer 는 크게 encoder와 decoder로 구성되어 있습니다. 대부분의 유명한 nearul sequence transduction model들은 encoder와 decoder 조합을 구..
작성자 : UNIST 기계공학과 석사과정생 임가은 ㅡChatGPT 등장 이후, 저에겐 약 1년간은 절대 GPT를 사용하지 않겠다고 결심했던 기간이 있었습니다. 왠지 인간의 고유한 능력, 질문하고 사유한 뒤 나름의 답을 내리는 것 마저 기계에게 빼앗겨버린 느낌이랄까요? 어디까지 효율을 추구해야 할지 혼란스러우면서도, 한편으로는 GPT를 사용하는 친구들의 과제 제출 속도를 따라갈 수 없어 마지못해 사용하기 시작하게 되었던 것 같아요. 저의 GPT 사용 history를 간단히 풀어보자면, 2022년 말에는 3개월 무료 체험권을 연구실 동료에게 선물받아 어찌저찌 사용했습니다. 2023년에는 무지막지한 ROS package 설치와 Gazebo, Unreal 등 가상환경 구성을 할 일이 많았고, 이때 GPT가 큰 ..
Trajectory optimization(TO)을 몇달간 공부하고 사용하면서 알게 된 사실들을 조금 정리해보려 한다. 분명 강력한 오프라인 플래너지만 확실히 한계점도 존재한다. 이제는 벌써 트렌드와는 멀어진 기술이지만 개인적으로 학습 기반으로 넘어가기 전에 Trajectory optimization과 MPC는 해보고 가는 게 좋다 생각했다. 나처럼 TO를 처음 접하고 고통 받는 사람들을 위해 명확한 사실은 아니지만, 대충 내가 느낀 걸 적어본다.1. 스케일 Down to 스케일 Up 모든 문제 해결의 시작은 단순화이다. TO 문제 또한 가장 먼저 문제를 단순화시키고 단순화 된 문제에서 원하는 해결책을 찾았다면 그 다음 조금씩 Scale up 한다. 단순화 하는 방법으로는 차원 줄이기, 제약 사항 늘리..

작성자 : 한양대학교 일반대학원 인공지능융합학과 유승환 박사과정 안녕하세요~ 오랜만에 Jetson Nano 관련 블로그 글을 올립니다! 저는 엘스비어 저널에 투고한 논문의 리비전 작업을 위해, 오랜만에 Jetson Nano를 부팅했는데... 처음으로 모니터에 뜨는 Nvidia Logo 화면에서 Stuck되어서 다음 화면으로 넘어가지 않더라고요 ㅜㅜ (1시간 넘게 기다려도 계속 stuck된 채로 멈춰있습니다...) 관련해서 구글링을 하면 정말 다양하고 어려운 솔루션들이 나옵니다! 그런데 저는 엄청 쉬운 방법으로 해결이 되더라고요...ㅎㅎ 저와 같은 현상이 발생하면, jetson nano에 장착된 micro SD 카드를 뺐다가 다시 장착해주세요! 그런 다음에 jetson nano를 재부팅하면, 신기하게..

Signed Distance Field는 주어진 x와 특정 집합의 경계 사이의 직교 거리를 나타내는 필드(혹은 함수)이다. 이 거리는 점 x가 집합의 내부에 있는지 여부에 따라 부호가 결정된다. 집합 내부에서는 양수, 경계에서는 0, 외부에서는 음의 값을 가진다. 이런 SDF는 시뮬레이션에서 충돌을 계산하는 데 사용된다.MuJoCo는 SDF 플러그인을 제공한다.https://github.com/google-deepmind/mujoco/blob/main/plugin/sdf/README.mddistance 함수를 만들어서 나만의 플러그인을 만들 수 있다. 이때 참고하면 좋은 사이트가 https://iquilezles.org/articles/distfunctions/기본적인 SDF들에 대한 함수를 작성해두었다..

LCP를 이용해서 Contact model을 구성하는 내용을 다뤘었다. 오늘은 실제 LCP 문제를 푸는 법에 대해 이야기 해보려 한다. 기본적인 LCP는 아래와 같이 정의 된다.이런 형태로 접촉 문제를 구성하여 LCP를 풀면 접촉 힘을 계산할 수 있게 된다. 우선 간단한 점이 바닥과 접촉하는 경우의 Contact model을 구성해보자. (원이 아니라 점이다. Point mass라 생각하자.)무게는 0.2, 마찰 계수는 1이라 하자. 점이기 때문에 Mass matrix, (혹은 Inertia matrix)는 무게를 대각행렬로 가지는 형태가 된다. 점이기에 바닥과 접촉하는 순간 발생하는 접촉의 수는 1개로 고정된다.우선 모든 걸 contact frame (접촉 프레임)으로 바꿔줘야 한다. 어떤 좌표 ..