editor, Seungeon Baek Reinforcement learning Engineer / RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/21 Paper reivew of RL (6) Hindsight Experience Replay (HER) 강화학습 논문 리뷰 연재 여섯 번째 입니다. 현재 감사하게도 함께 하고있는, '로봇이 아닙니다' 팀블로그에 합류한 이후 처음으로 쓰는 연재글이다 보니 퀄리티에 신경을 쓰려고 노력했고, 그 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 여섯 번째 입니다. 현재 감사하게도 함께 하고있는, '로봇..
작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 작성자 2 : 한양대학교 로봇공학과 홍윤기 학부연구생 정말 오랜만에 팀블로그에 글을 작성해보네요ㅎㅎ 오늘은 value iter 기반 강화학습 알고리즘인 DDQN : Deep Reinforcement Learning with Double Q-learning 논문 리뷰를 진행하겠습니다!! 참고로 DDQN은 AAAI 2016에 출판(?)된 논문입니다~ 링크 0 (원문) : https://arxiv.org/pdf/1509.06461.pdf 링크 1 (참고 블로그) : https://taek-l.tistory.com/36 [강화학습 Key Paper] Double DQN 본 포스트는 OpenAI에서 공개한 강화학습 교육자료인 Spinni..
editor, Junyeob Baek Robotics & ML Research Engineer / RL, Motion Planning and Control, SLAM, Vision 관련 포스팅 Continual Learning for Robotics(2) 0. Prologue 딥러닝 분야를 공부하다보면 continual learning 또는 life-long learning이라는 이야기를 들어본 적이 있을 것이다. 그리고 잘 모르겠지만 지속 가능한 학습, 계속 학습하는것(?) 정도로 이해하면 되는 개념인가보다 하고 넘어갔다면, 이 글을 통해 조금이라도 해당 분야에 대한 인사이트를 얻어갈 수 있는 시간이 될 수 있길 바란다. 인공지능을 연구하는 사람들에게 지속 가능한 학습은 범용지능(AGI)을 만들기 위한..
강화학습 Tips and Tricks Author: Benthebear93[이해구] & Keep9oing[정민재] Reference: https://stable-baselines3.readthedocs.io/en/master/guide/rl_tips.html Stable Baseline 3(SB3)에서 본격적으로 강화학습을 적용하고자 하는 사람들을 위한 팁들과 트릭들을 정리한 포스트의 번역물입니다. 오역이 있을 경우 피드백 환영입니다. Reinforcement Learning Tips and Tricks 이번 글의 목적은 강화학습을 연구하는 데 있어서 도움을 주기 위함입니다. 글에서는 강화학습을 연구하면서 '어떻게 시작하고, 어떤 알고리즘을 선택하고 평가하는지 등'에 대한 일반적인 조언들로 부터 커스텀 ..
반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Dynamic programming Dynamic programming은 어려운 문제를 작은 단위로 나눠서 푸는 방법이다. 작은 단위 문제(subproblem)을 풀고 솔루션과 subprob..
#제어이론 #제어공학 #제어 #임피던스제어 #로봇공학 "Simple" Impedance Control 원시적인 임피던스 컨트롤 적용은 Hogan에 의해서 1985년도에 제시 됐는데 꽤 성공적으로 적용됐다. 여기서 "Simple"은 힘이나 토크 제어가 되는 엑추에이터로 본질적으로 적은 마찰력을 가지는 매커니즘으로 이루어져있다는 뜻이며, output 임피던스를 증가시키려고 모션 피드백을 사용한다. 이 방식은 매커니즘에서 오는 물리적인 임피던스를 보상하려는 일은 하지 않는다. 따라서 실제 output 임피던스은 매커니즘에서 오는 컨트롤러 펄스로 구성되어 있다. 만약 댐핑과 엑추에이터, 환경에 의한 토크로 구성된 다 자유도 로봇을 모델링하게 되면 로봇의 simple impedence controller는 아래와..
K-dimensional Tree는 K 차원으로 공간상의 점들을 정리하는 자료구조 중 하나이다. 이진트리(binary tree)의 종류인데, 제약조건이 추가 됐을 뿐이다. K-d Tree는 range나 nearset neighbor 탐색에 매우 유용하다. Kd tree는 그 공간의 차원에 제한 되는데, 포인트 클라우드는 일반적으로 3차원이므로 여기서 사용하는 kdTree의 차원은 3차원이다. kd tree는 기본적으로 x축을 기준으로 yz 평면에 평행하게 한번, y축 기준으로 한번, z축 기준으로 한번 나누어 이를 Tree 형식으로 만드는 원리이다. 이렇게 계속 나눠서 이진 트리 형태의 구조가 된다. 사진에서는 KdTree를 이용해서 Nearest-Neighbor 방법이 적용되는 모습을 볼 수 있..
Complimentary Filter Gyroscope 자이로스코프 각속도를 센싱 하고 적분 하여 각도를 추정하게 되는데, 이 과정에서 센서 자체의 오차가 함께 적분이 된다. 이러한 특성은 천천히 회전할때 좋지 않다. 예를 들어, 0.1초마다 센싱이 이루어지고 1초 동안 30도를 움직일때 0.1초마다 매 순간 오차가 포함된 각속도가 적분이 되는데 이는 초기 오차가 계속 누적되어 각도에서 큰 오차로 표현될 수 있다. 하지만 30도를 0.1초 만에 움직인다면, 오차의 값은 1번 적분 되므로 무시해도 될 정도이고 이는 상대적으로 고주파 형태이다. 이를 수식적으로 간단히 본다면 1초동안 30도 속도의 주파수를 구하고 싶은 경우 0.1초동안 30도 속도의 주파수를 구하고 싶은 경우 상대적으로 고주파수에 해당 따라..