참고자료 : https://www.youtube.com/watch?v=xQ79ysnrzUk&t=9s 매우 간단한건데 어떻게 쉽게 할 수 있을까 하다가 찾은 자료. 알고있는 행렬 : Base와 end-effector 간의 transform / camera와 target 간의 transform 찾으려는 행렬 : Camera와 end-effector 간의 transform 알기 어려운 행렬 : Base와 target 간의 거리 base부터 target 거리만 잘 측정할 수 있다면 쉽게 찾으려는 행렬을 구할 수 있다. 단 정확하게 측정하기가 어렵다. 대신 저 좋은 방법으로, 다양한 pose에서 target을 측정한 후 행렬들을 사용해서 원하는 행렬을 구하는 방식이다. A행렬과 B행렬을 여러 pose로 측정하여 ..
작성자 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 안녕하세요~!! 오늘은 오프라인 강화학습 알고리즘 중 하나인 CQL : Conservative Q-Learning의 논문 리뷰를 진행하겠습니다! 'Conservative'의 뜻은 '보수적'이라는 뜻을 지니고 있는데요~ 이 의미가 어떻게 CQL 알고리즘에 표현되는지를 보겠습니다!! 실제 다관절 로봇에 강화학습을 적용하려는 저와 같은 연구자분들은 기존의 강화학습(ex : Off-Policy RL)을 사용하려면 Experience Replay Buffer에 수많은 데이터를 쌓아야해서, 데이터 수집 비용이 비싸다는 한계점이 있었는데, 이를 어떻게 극복했는지를 한번 알아보겠습니다~! 1. 원문 링크 : https://arxiv.org/abs..
editor, Junyeob Baek Robotics & ML Research Engineer / RL, Motion Planning and Control, SLAM, Vision 관련 글 Continual Learning for Robotics(1) 0. Prologue 지난 글에서는 Continual Learning(이하 CL)에 대한 간단한 설명과 이를 Autonomous Agent인 Robot에 적용하기 위한 일부 연구 동향들에 대해 설명해보았다. 조금 더 명확하게 설명하자면, Continual Learning의 개념모델에 대해 논의하기 위해 몇 가지 biological system의 특징으로부터 착안한 Developmental Learning의 측면에서 주로 다루었다. 개인적으로 매우 흥미로운 ..
작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 작성자 2 : 한양대학교 인공지능융합학과 정범수 석사과정 (CAI LAB) 작성자 3 : 한양대학교 로봇공학과 홍윤기 학부연구생 작성자 4 : 한양대학교 로봇공학과 임준희 학부연구생 안녕하세요~!! 오늘은 PER : Prioritized Experience Replay 논문을 리뷰해보겠습니다~! 오늘은 글 대신 PDF 링크 형태로 업로드를 하겠습니다!! 강린이(강화학습 어린이ㅎㅎ)가 작성한 내용이다보니... 틀린 내용이 있을 수도 있습니다ㅜㅜ 오류들은 댓글로 피드백을 남겨주시면 너무 감사하겠습니다~! PER을 요약하자면, 우선순위가 높은 강화학습 데이터를 선별해서 학습하는 기법이라고 볼 수 있습니다! 강화학습의 데이터란 (Sta..
논문 링크 : https://www.i-support-project.eu/web/wp-content/uploads/2018/08/3_Multiobjective-optimization-for-stiffness-and-position-control-in-a-soft-robot-arm-module_SSSA_CL.pdf 배경지식 : distance metric : https://joonable.tistory.com/14 absorbing state : https://en.wikipedia.org/wiki/Absorbing_Markov_chain hypersphere : https://cumulu-s.tistory.com/9 [Abstract] 이 논문의 주된 목적은 노인을 위한 입욕을 도와줄 로봇 팔을 연구..
강화학습 Tips and Tricks(2) Author: Benthebear93[이해구] Reference: https://medium.com/@BonsaiAI/deep-reinforcement-learning-models-tips-tricks-for-writing-reward-functions-a84fe525e8e0 https://stable-baselines3.readthedocs.io/en/master/guide/rl_tips.html 본 글은 reference 내용의 번역본입니다. 이번 글에서는 RL모델을 학습 시키는데 필요한 reward function(보상함수)를 효과적으로 작성하는 방법에 대해서 다루려고 한다. The Cobra Effect RL모델을 학습 시키는데 필요한 reward fun..
Evolutionary 알고리즘에 대한 개략적인 설명은 이전 포스트에서 언급됐다. Evolutionary strategy 1 - Simple Gaussian Evolution 최근 RL관련 논문이나 구루들의 토의 영상들을 보면 evolution strategy(혹은 evolution algorithm)이란 단어가 심심치 않게 등장한다. Evolution algorithm은 Black box optimization의 일종이다. Black box opti.. ropiens.tistory.com 오늘은 $(\mu, \lambda)$-ES 방식과는 약간 다른 Elitarian selection $(\mu + \lambda)$-ES에 대해 알아보겠다. Elitarian selection $(\mu + \lambd..
최근 RL관련 논문이나 구루들의 토의 영상들을 보면 evolution strategy(혹은 evolution algorithm)이란 단어가 심심치 않게 등장한다. Evolution algorithm은 Black box optimization의 일종이다. Black box optimization은 우리가 최적화 하고자 하는 함수의 전체적인 형태는 알 수 없지만 입력에 대한 출력은 확인 할 수 있는 함수(evaluation만 가능한 black box)에 대해 우리가 원하는 최적 인풋을 찾는 기법을 말한다. 기존의 딥러닝 기법들은 경사도 기반 기법(gradient descent 등)들을 주로 사용하여 loss 함수를 최적화하는 것을 통해 학습을 진행해 왔다. Black box optimization이 이와 좀..