
반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Dynamic programming Dynamic programming은 어려운 문제를 작은 단위로 나눠서 푸는 방법이다. 작은 단위 문제(subproblem)을 풀고 솔루션과 subprob..

#제어이론 #제어공학 #제어 #임피던스제어 #로봇공학 "Simple" Impedance Control 원시적인 임피던스 컨트롤 적용은 Hogan에 의해서 1985년도에 제시 됐는데 꽤 성공적으로 적용됐다. 여기서 "Simple"은 힘이나 토크 제어가 되는 엑추에이터로 본질적으로 적은 마찰력을 가지는 매커니즘으로 이루어져있다는 뜻이며, output 임피던스를 증가시키려고 모션 피드백을 사용한다. 이 방식은 매커니즘에서 오는 물리적인 임피던스를 보상하려는 일은 하지 않는다. 따라서 실제 output 임피던스은 매커니즘에서 오는 컨트롤러 펄스로 구성되어 있다. 만약 댐핑과 엑추에이터, 환경에 의한 토크로 구성된 다 자유도 로봇을 모델링하게 되면 로봇의 simple impedence controller는 아래와..

K-dimensional Tree는 K 차원으로 공간상의 점들을 정리하는 자료구조 중 하나이다. 이진트리(binary tree)의 종류인데, 제약조건이 추가 됐을 뿐이다. K-d Tree는 range나 nearset neighbor 탐색에 매우 유용하다. Kd tree는 그 공간의 차원에 제한 되는데, 포인트 클라우드는 일반적으로 3차원이므로 여기서 사용하는 kdTree의 차원은 3차원이다. kd tree는 기본적으로 x축을 기준으로 yz 평면에 평행하게 한번, y축 기준으로 한번, z축 기준으로 한번 나누어 이를 Tree 형식으로 만드는 원리이다. 이렇게 계속 나눠서 이진 트리 형태의 구조가 된다. 사진에서는 KdTree를 이용해서 Nearest-Neighbor 방법이 적용되는 모습을 볼 수 있..

Complimentary Filter Gyroscope 자이로스코프 각속도를 센싱 하고 적분 하여 각도를 추정하게 되는데, 이 과정에서 센서 자체의 오차가 함께 적분이 된다. 이러한 특성은 천천히 회전할때 좋지 않다. 예를 들어, 0.1초마다 센싱이 이루어지고 1초 동안 30도를 움직일때 0.1초마다 매 순간 오차가 포함된 각속도가 적분이 되는데 이는 초기 오차가 계속 누적되어 각도에서 큰 오차로 표현될 수 있다. 하지만 30도를 0.1초 만에 움직인다면, 오차의 값은 1번 적분 되므로 무시해도 될 정도이고 이는 상대적으로 고주파 형태이다. 이를 수식적으로 간단히 본다면 1초동안 30도 속도의 주파수를 구하고 싶은 경우 0.1초동안 30도 속도의 주파수를 구하고 싶은 경우 상대적으로 고주파수에 해당 따라..

단순히 operational space에서 제어하여 특정 위치로 로봇을 이동시키는 목적 외에도 다수의 제어 목적이 있을 수 있다. 예를들어 1. 특정 위치로 로봇팔 끝단을 움직이면서 2. elbow joint 값을 높인 상태로 유지해라 라는 2가지의 목적이 있을 수 있다. 이런 2가지 목적을 달성하기 위해서 문제는 로봇의 자유도에 있다. 만약 operational space가 generalized coordinates과 동일하다면, 즉 만약 operational space가 로봇의 모든 자유도를 제약하고 시스템의 상태가 operational space에 정의 된다면, 1번의 목적을 달성하는 컨트롤러에 대한 성능을 포기하지 않고 2번의 목적을 달성하는 것은 불가능하다. 2링크 로봇팔은 2자유도를 가..

Null space control을 다루기 전에 먼저 Null space 에 대해서 이야기해보자. 기존에 작성해둔 Null space 설명을 가져왔다. "널 스페이스는 컬럼 스페이스와는 전혀 다른 Subspace이다. 선형 방정식 AX=b에서 b가 zero vector일때 즉 AX=0일때 모든 가능한 해 X에 대한 집합이다. 특정 행렬A와 X가 곱해졌는데 그게 0이 나올때 X의 집합, x가 이루는 공간을 Null space라고 한다. 3차원 공간에서 Null space는 직선으로 표현된다고 한다." 쉽게 말해 AX = 0 일 때 가능한 모든 해 X의 집합이 Null space 라고 볼 수 있다. 직관적인 이해를 위해 아래 영상을 참고하자. https://www.youtube.com/watch?..

editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/category/Reinforcement%20Learning/Multi-agent%20RL 'Reinforcement Learning/Multi-agent RL' 카테고리의 글 목록 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 네번째입니다. 이 논문의 경우, RL_Korea의 옥찬호 님께서 주도하시는 RL 논문 리뷰 스터디에 참여하며. 리뷰한 논문으로, 제가 4월 19일에 실제로 스터디 내에서 발..

editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/category/Reinforcement%20Learning/RL%20environment 'Reinforcement Learning/RL environment' 카테고리의 글 목록 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 세번째입니다. 오늘 준비한 논문은 강화학습에서 많이 사용되었던 환경, 최근에 구글에서 공개한 환경과 관련된 논문들을 준비해 보았습니다. (2020년 9월 글입니다.) 각각 ..