'2024/01 글 목록

G. Williams, P. Drews, B. Goldfain, J. M. Rehg and E. A. Theodorou, "Aggressive driving with model predictive path integral control," 2016 IEEE International Conference on Robotics and Automation (ICRA), Stockholm, Sweden, 2016, pp. 1433-1440, doi: 10.1109/ICRA.2016.7487277. keywords: {Trajectory;Optimal control;Entropy;Vehicles;Prediction algorithms;Q measurement;Stochastic processes}, https://..

maengkyun/Study note 2024. 1. 28. 14:57

[ROS2::Navigation2] DWB Controller

https://navigation.ros.org/configuration/packages/configuring-dwb-controller.html DWB Controller — Nav2 1.0.0 documentation DWB Controller Source code on Github. The DWB controller is the default controller. It is a fork of David Lu’s controller modified for ROS 2 using the Dynamic Window Approach. Example controller_server: ros__parameters: # controller server parameters (se navigation.ros.org ..

maengkyun/Study note 2024. 1. 27. 15:01

[RLHF-Navigation] Feedback-efficient Active Preference Learning for Socially Aware Robot Navigation

요약 Hybrid experience buffer를 통해 sample 효율을 증가 curious exploration과 expert demonstraion 사용 human feedback을 사용하여 좀 더 자연스러운 주행을 보여줌. 1. Abstract (1-1) Socially aware robot navigation (SARN) SARN이란? 로봇이 목표에 도달할 때 충돌이 없도록 하는 것 인간과 로봇으로 하여금 편안하도록 하는 것. e.g. 로봇이 인간의 경로를 방해하면, 인간은 불편함을 느낌 e.g. 로봇의 경로가 부드럽지 않으면, 로봇의 모터가 마모되는 등 불안정해짐. e.g. 우측 보행이 만연한 집단에 혼자 좌측 보행 하는 사람 → 우리는 불편함을 느낌. SARN’s challenging 인간..

딩딩기/강화학습 자율주행 2024. 1. 16. 02:50

[RLHF] Deep Reinforcement Learning from Human Preferences

요약 clip video의 사용 현실적으로 agent의 1개의 episode는 길다. 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임. 따라서 1~2초 길이의 clip video를 통한 학습 제시 비전문가로 구성된 인간 집단 전문가의 데이터를 취득하기란 쉽지 않음. 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정. 2가지의 비교군 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬 또한 시간과 비용이 많이 들어 비효율임. 따라서 2가지의 데이터를 제시하여 비교하게 함. 본 논문의 특징 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 ..

딩딩기/RLHF 2024. 1. 15. 18:17

[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

요약 reward 모델은 편향에 취약하다. Unimodal를 가정하여 reward 모델을 학습하기에 다수의 선호를 주로 학습하며 반대로 소수의 의견은 묵살하는 경향을 보인다. Pretrained 모델로 (state,action)데이터를 취득하기 때문에 feedback 할 수 있는 데이터의 종류가 한정되어 편향이 존재한다. reward 모델을 학습 시 local minima에 빠져 편향적일 수 있다. 인간의 선호를 100% 이해한 reward 모델을 만들기 어렵다. RLHF에서 feedback collection은 어렵다 사람마다의 주관이 다르기 때문에 적절한 feedback을 얻기 어렵다. 동일한 사람이라도 문맥과 시간의 흐름에 따라 평가 지표가 변화된다. feedback collection 방법에 따라..

딩딩기/RLHF 2024. 1. 12. 15:56

[논문리뷰] Control Barrier Functions : Theory and Applications

Controal Barrier Functions : Theory and Applications 저자 : Aaron D. Ames1 , Samuel Coogan2 , Magnus Egerstedt3 , Gennaro Notomista4 , Koushil Sreenath5 , and Paulo Tabuada 논문 : https://arxiv.org/pdf/1903.11199.pdf 작성 : 이해구 safety-critical system이라는 용어는 안전성을 메인 디자인 기준으로 두는 시스템을 말한다. 그렇다면 안전성이란 정확히 뭘까? bad 행동은 일어나지 않고 good 행동은 "결국" 일어나야 하는 것이 safe라면, asymptotically stable은 equilibrium point에 결국..

미니멀공대생/Control 2024. 1. 3. 20:25

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

로봇이 아닙니다.

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

« 2024/01 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31