[RLHF-Navigation] Feedback-efficient Active Preference Learning for Socially Aware Robot Navigation
요약 Hybrid experience buffer를 통해 sample 효율을 증가 curious exploration과 expert demonstraion 사용 human feedback을 사용하여 좀 더 자연스러운 주행을 보여줌. 1. Abstract (1-1) Socially aware robot navigation (SARN) SARN이란? 로봇이 목표에 도달할 때 충돌이 없도록 하는 것 인간과 로봇으로 하여금 편안하도록 하는 것. e.g. 로봇이 인간의 경로를 방해하면, 인간은 불편함을 느낌 e.g. 로봇의 경로가 부드럽지 않으면, 로봇의 모터가 마모되는 등 불안정해짐. e.g. 우측 보행이 만연한 집단에 혼자 좌측 보행 하는 사람 → 우리는 불편함을 느낌. SARN’s challenging 인간..
딩딩기/강화학습 자율주행
2024. 1. 16. 02:50