
https://navigation.ros.org/configuration/packages/configuring-dwb-controller.html DWB Controller — Nav2 1.0.0 documentation DWB Controller Source code on Github. The DWB controller is the default controller. It is a fork of David Lu’s controller modified for ROS 2 using the Dynamic Window Approach. Example controller_server: ros__parameters: # controller server parameters (se navigation.ros.org ..

요약 Hybrid experience buffer를 통해 sample 효율을 증가 curious exploration과 expert demonstraion 사용 human feedback을 사용하여 좀 더 자연스러운 주행을 보여줌. 1. Abstract (1-1) Socially aware robot navigation (SARN) SARN이란? 로봇이 목표에 도달할 때 충돌이 없도록 하는 것 인간과 로봇으로 하여금 편안하도록 하는 것. e.g. 로봇이 인간의 경로를 방해하면, 인간은 불편함을 느낌 e.g. 로봇의 경로가 부드럽지 않으면, 로봇의 모터가 마모되는 등 불안정해짐. e.g. 우측 보행이 만연한 집단에 혼자 좌측 보행 하는 사람 → 우리는 불편함을 느낌. SARN’s challenging 인간..

요약 clip video의 사용 현실적으로 agent의 1개의 episode는 길다. 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임. 따라서 1~2초 길이의 clip video를 통한 학습 제시 비전문가로 구성된 인간 집단 전문가의 데이터를 취득하기란 쉽지 않음. 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정. 2가지의 비교군 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬 또한 시간과 비용이 많이 들어 비효율임. 따라서 2가지의 데이터를 제시하여 비교하게 함. 본 논문의 특징 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 ..

요약 reward 모델은 편향에 취약하다. Unimodal를 가정하여 reward 모델을 학습하기에 다수의 선호를 주로 학습하며 반대로 소수의 의견은 묵살하는 경향을 보인다. Pretrained 모델로 (state,action)데이터를 취득하기 때문에 feedback 할 수 있는 데이터의 종류가 한정되어 편향이 존재한다. reward 모델을 학습 시 local minima에 빠져 편향적일 수 있다. 인간의 선호를 100% 이해한 reward 모델을 만들기 어렵다. RLHF에서 feedback collection은 어렵다 사람마다의 주관이 다르기 때문에 적절한 feedback을 얻기 어렵다. 동일한 사람이라도 문맥과 시간의 흐름에 따라 평가 지표가 변화된다. feedback collection 방법에 따라..

Controal Barrier Functions : Theory and Applications 저자 : Aaron D. Ames1 , Samuel Coogan2 , Magnus Egerstedt3 , Gennaro Notomista4 , Koushil Sreenath5 , and Paulo Tabuada 논문 : https://arxiv.org/pdf/1903.11199.pdf 작성 : 이해구 safety-critical system이라는 용어는 안전성을 메인 디자인 기준으로 두는 시스템을 말한다. 그렇다면 안전성이란 정확히 뭘까? bad 행동은 일어나지 않고 good 행동은 "결국" 일어나야 하는 것이 safe라면, asymptotically stable은 equilibrium point에 결국..

2023년도 이제 이틀정도 남았습니다. 매년하는건 아니지만 올해 마무리를 하며 간단히 작성합니다. 올 한해는 크게 두 시즌으로 나뉜것 같네요. 상반기는 연구와 공부를 진행했고, 하반기는 밀려드는 과제에 휩쓸려 다녔습니다. 연구는 그동안 진행하던 학습기반 task allocation (mission planning) 연구를 좀 더 복잡한 환경에 대해 심화시켜 적용하는 것과 non holonomic robot들의 학습기반 flocking 알고리즘에 대한 연구를 진행했습니다. flocking은 군집로봇들이 특별한 formation없이 부딪히지 않고 몰려다니는 이동 방식인데, 사실 학위과정을 시작하며 가장 해보고 싶었던 연구라 상당히 만족하면서 진행했습니다. 과제는,, 올해가 첫해인 과제도 있어서 상당히 애를 ..

논문 링크: https://arxiv.org/pdf/1609.02907.pdf 참고 자료: https://tkipf.github.io/graph-convolutional-networks/ code: https://github.com/tkipf/pygcn1. Graph Convolution Network Graph에 convolultion 기법을 적용한 방법으로 local graph structure를 분석하는 방법론이다. 그로 인해 Spectral graph convolution이라는 의미가 붙는다. 기존에 GCN에 대한 정리 글들을 읽어보았는데 자세히 정리되거나 설명하는 블로그 글이 없어서 이번 기회에 GCN 논문을 제대로 뜯어먹고자 한다. 2. Fast Approximated Convolutions ..

1. Graph 란 무엇인가? 1.1. Graph의 정의 G라고 표현하며, 구성요소는 일반적으로 V(Vertex), E(edge)로 구성된다. 이때 vertex를 node라고 하기도 한다. [여기서는 node로 통일한다.] 따라서 G(V,E) 으로 나타낸다. 1.2. Node, Edge, Adjacency matrix, Degree matrix, Laplacian matrix 1.2.1 Node와 Edge Node란 객체의 정보를 나타낸다. 이때 정보를 node features 또는 node attributes라고 한다. Edge란 node 간의 연결을 의미한다. 간단한 예시로 Social Network Serive(SNS)가 있다. 사람들 하나하나를 Node라고 하면, features의 ..