반년전에 공부하면서 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다.팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Policies policy pi는 주어진 state에서의 action을 이야기 한다. policy는 agent의 행동을 지정하는데, MDP에서의 Policy는 현재 state와 관련이 있지만 History와는 관련이 없다. 즉, policy는 시간과..
반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Markov Decision Processes MDP는 RL에서 주어지는 환경을 이야기한다. 이때 환경은 관찰할 수 있으며, MDP는 RL에서 주어지는 환경을 이야기한다. 이때 환경은 관찰할..
상호작용 포트로 결합(coupled)된 시스템을 분석하기 위해서는 상호작용하는 행동의 causality를 확인하면 좋다. causality란 시스템의 출력값이 과거와 현재 입력값에만 영향을 받는지에 대한 내용이다. 각 시스템에 적당한 causality는 시스템과 환경과의 연결 관계에 제한되며 이는 시스템의 수학적 표현에 영향을 준다. power-based network 모델링 접근법(bond graphs)이 유용하지만, 사실 그렇게 꼭 필요한건 아니니 참고만 하자.(보니깐 필요한 것 같다. 추후에 Bond graph에 대한 것도 정리해보겠다) https://en.wikipedia.org/wiki/Bond_graph Bond graph - Wikipedia en.wikipedia.org Causal Ana..
포트 임피던스와 어드미턴스는 선형시스템 반응 표현들이다. 일반적인 입력, 출력값으로 표현되는 전달함수와 다른점(차이점)을 알아두는 것이 좋다. 그림의 시스템의 경우 2개의 power interface가 있기 때문에 2-port 예제로 볼 수 있다. 첫번째 power interface는 Fa와 x1속도로 표현할 수 있고 두번째 power interface의 경우 Fe와 x2의 속도로 표현 가능하다. 만약 위 사진과 같은 요소들이 로봇을 표현한다면, 한쪽은 주로 액추에이터와 연결되어 있고 다른 한쪽은 로봇의 아래쪽이나, 바로 환경과 연결되어 있다. 기계적 2-port는 모션에 따른 힘에 대한 4가지의 전달함수를 가지게 된다. 그 중 2개는 아래와 같다. 이들은 입력과 출력의 전달함수로 다른 power 변..
기계적 임피던스와 어드미턴스 상호작용 컨트롤의 일반적인 형태는 매니퓰레이터의 임피던스나 어드미턴스를 조절하는 것이다. 힘을 전압이라고 보고 전류를 속도라고 보게 되면 기계적인 임피던스는 전기적 임피던스와 동일하게 볼 수 있고, 전력의 흐름을 정의하는 변수들의 결합으로 특정지어 진다. 이는 아래의 내용으로 정의 된다. 정의1. 포트에서의 기계적인 임피던스는 동일한 포트에서 시간에 대한 속도(velocity, angular velocity) 함수를 Input으로 가지고, 시간에 대한 힘(force, Torque)을 output으로 만드는 동적 연사자이다. 이를 Z 라고 두자. 그리고 포트에서 기계적인 임피던스는 동일한 포트에서 시간에 대한 함수 힘을 input으로 가지고, 속도를 시간에 대한 함수로 ou..
외란억제로서 상호작용 (Interaction as Disturbance Rejection) 다양한 제어이론들이 특징이 잘 설명되어 있지 않은 인터페이스를 다룰 수 있도록 발전해왔다. 외란 억제 방법을 통해서 환경에 대한 다이나믹스가 외란힘으로 추가될 수 있다. 억제를 잘하기 위해서는 외란 힘의 경계값을 잘 정해줘야한다. 하지만 로봇이 환경과 상호작용하는 경우에 외란힘은 로봇의 수용량을 넘거나 동일한 경우가 대부분이다. 예를 들어 운동학적(Kinematic) 제약은 로봇의 행동에 따라 큰 힘을 만들 수 있는데, 외란힘(환경이 주는 힘)은 로봇의 상태와 연관이 있는 데 일반적으로 외란은 상태와 독립적으로 보기 때문에 상호작용을 외란억제 문제로 보는 것은 그렇게 좋지는 않다(not seem promising)..
*본 글은 https://summerschool.stiff-project.org/ 내용을 번역, 정리한 글입니다. 전 글에서 임피던스 제어란 환경을 어드미턴스로 두고 로봇과의 임피던스를 제어하는 것이라고 했다. 이를 성능(Performacne)과 안정성(Stability)의 관점에서 이야기해보자. 어떤 모션이나 힘을 제어하려고 할 때, 환경과의 상호작용은 컨트롤 가능한 변수에 영향을 주게 된다. 이런 영향으로 생기는 에러는 성능에 영향을 미치게 되고 안정성 또한 불안정해진다. 이런 불안정성은 coupled/contact instabilities라고 하는데, 단순한 시스템이 환경과 작용할 때도 확인할 수 있다. 한가지 예시를 들어보자. 질량(m)을 가지고 이노시아 값을 알고 있는 간단한 로봇이 있다고 하자..
임피던스 제어란 힘과 위치에 대한 동적 제어와 관련이 있다. 주로 로봇팔에 작용하는 힘에 대해 고려해야하는 환경에 있을 때 적용 되는 제어이다. 기계적인 임피던스는 모션 인풋에 대한 힘의 아웃풋인데 당연하게도 이는 전류 인풋에 대한 전압 아웃풋의 비를 가지는 전기적 임피던스와 상사를 가진다. 그렇다면 먼저 전기 임피던스(electircal impedence)에 대해서 알아보자. 임피던스의 정의는 "전압을 인가했을 때 전류가 흐르는 것에 반항하는 정도" 이다. 저항과의 차이점은 저항은 DC전압, 임피던스는 AC전압이 들어올 때 저항하는 것을 말한다. 이런 차이는 그렇게 중요하지는 않고, 이 정의를 바탕으로 힘, 위치로 대입해보자. 제어에서 임피던스란 "힘을 인가했을 때 모션을 방해하는 정도" 라고 표현할 ..