
editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/2?category=806048 Paper review of RL (1) Dota2 with Large Scale Deep Reinforcement Learning (OpenAI "Five") 강화학습 연구 관련 트렌드를 파악하기 위하여, 블로그에서 강화학습 논문 리뷰 연재를 시작하게 되었습니다. 꾸준히 작성하여 많은 사람들에게 도움이 되었으면 좋겠습니다! DeepMind의 연구진 seungeonbaek.tistory.com 클릭해 주셔서 감사합니..

여느 다른 컨트롤 시스템처럼, 상호작용 시스템도 안정성과 성능 두마리의 토끼를 잡아야한다. 이전 글에서는 안정성 분석이 반드시 시스템 상호작용 할 환경에 대한 고려를 포함 해야 한다는 것을 보였고, 시스템의 port behavior를 조작함으로서 안정성의 원칙이 보장 될 수 있음도 보였다. (물론 블로그 글에는 정리하지 않았다. 너무 복잡해서..) 상호작용 시스템의 성능도 dynamic port behavior로 측정 되므로, 두가지 목적(안정성과 성능)는 target interactive behavior의 구현에서 오류를 최소화 하는 컨트롤러로 동시에 충족될 수 있다. 즉, 어떤 target 상호작용하는 움직임이 있는데, 이에서 오류를 최소화하는 컨트롤러로 안정성과 성능이라는 두마리 토끼를 잡을 수..

요즘 Machine learning with graph (CS224W) 강의 리뷰를 어느 분들이 감사하게 해주어서 보고있다. 오늘은 Spectral clustering에 대해 읽었는데, 처음 소개하는 알고리즘이 간단하게 보이기도 하고 networkx도 계속 연습할 겸 코딩함. 이것보다 발전된 방향은 여러가지 더 있다. 5.Spectral Clustering 5. Spectral Clustering Spectral Clustering [작성자 : 정민준] velog.io 목적은 어떤 그래프가 주어졌을때, 밀집도를 비교하여 서로 비슷한 밀도를 가진 군집을 찾아내어 구분짓는 것이 목표이다. 수학적으로 전개와 증명을 이어나가는데, 하나하나 제대로 이해할 수는 없었다. 수학은 복잡한데 비해, 알고리즘은 간단하다...

반년전에 공부하면서 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다.팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Policies policy pi는 주어진 state에서의 action을 이야기 한다. policy는 agent의 행동을 지정하는데, MDP에서의 Policy는 현재 state와 관련이 있지만 History와는 관련이 없다. 즉, policy는 시간과..

반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Markov Decision Processes MDP는 RL에서 주어지는 환경을 이야기한다. 이때 환경은 관찰할 수 있으며, MDP는 RL에서 주어지는 환경을 이야기한다. 이때 환경은 관찰할..

editor, Junyeob Baek Robotics Software Engineer /RL, Motion Planning and Control, SLAM, Vision 지능에 대해 탐구하고자 써내려가는 글입니다. 실질적인 지식에 가깝기보다는 스스로 궁금하고 관심있는 분야에대해 써내려가는 소설에 가깝습니다. 아직 저도 공부하는 중이고 또 이러한 것들을 생각하며 연구하고 탐구하고싶다는 것 뿐입니다. 부디 이 글을 통해 관련 키워드와 개념에 대한 흥미를 얻어가셨으면 좋겠습니다. 아직 밝혀지지 않은 지식이 더 많으며 밝혀진 팩트는 논문에 있답니다. # 1 갓 태어난 아기지능은 데이터의 수용체(observation layer)와 자신을 움직일 수 있는 근육신경(action layer)를 가지고 태어난다. 세상으..

상호작용 포트로 결합(coupled)된 시스템을 분석하기 위해서는 상호작용하는 행동의 causality를 확인하면 좋다. causality란 시스템의 출력값이 과거와 현재 입력값에만 영향을 받는지에 대한 내용이다. 각 시스템에 적당한 causality는 시스템과 환경과의 연결 관계에 제한되며 이는 시스템의 수학적 표현에 영향을 준다. power-based network 모델링 접근법(bond graphs)이 유용하지만, 사실 그렇게 꼭 필요한건 아니니 참고만 하자.(보니깐 필요한 것 같다. 추후에 Bond graph에 대한 것도 정리해보겠다) https://en.wikipedia.org/wiki/Bond_graph Bond graph - Wikipedia en.wikipedia.org Causal Ana..

포트 임피던스와 어드미턴스는 선형시스템 반응 표현들이다. 일반적인 입력, 출력값으로 표현되는 전달함수와 다른점(차이점)을 알아두는 것이 좋다. 그림의 시스템의 경우 2개의 power interface가 있기 때문에 2-port 예제로 볼 수 있다. 첫번째 power interface는 Fa와 x1속도로 표현할 수 있고 두번째 power interface의 경우 Fe와 x2의 속도로 표현 가능하다. 만약 위 사진과 같은 요소들이 로봇을 표현한다면, 한쪽은 주로 액추에이터와 연결되어 있고 다른 한쪽은 로봇의 아래쪽이나, 바로 환경과 연결되어 있다. 기계적 2-port는 모션에 따른 힘에 대한 4가지의 전달함수를 가지게 된다. 그 중 2개는 아래와 같다. 이들은 입력과 출력의 전달함수로 다른 power 변..