Momentum Observer-Based Collision Detection using LSTM for Model Uncertainty Learing 저자 : Daegyu Lim, Donghyeon Kim, Jaegeung Park 논문 : https://ieeexplore.ieee.org/document/9561667 작성 : 이해구 개인적인 공부를 위해 작성하는 논문 리뷰입니다. 완변학 이해 없이 읽으면서 작성하였기 때문에 이상한 부분들이 많습니다. 댓글에 저보다 잘하시는 분들이 틀린점을 수정해주실 수 있으니, 댓글을 봐주시면 더 좋을 수도 있습니다 ABSTRACT 로봇이 사람들과 같이 협동하게 되면서, 안정성을 매우 엄격하게 보장되어야만 한다. 충돌회피 알고리즘가 더불어서 충돌을 고려하는 (Col..
반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Dynamic programming Dynamic programming은 어려운 문제를 작은 단위로 나눠서 푸는 방법이다. 작은 단위 문제(subproblem)을 풀고 솔루션과 subprob..
반년전에 공부하면서 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다.팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Policies policy pi는 주어진 state에서의 action을 이야기 한다. policy는 agent의 행동을 지정하는데, MDP에서의 Policy는 현재 state와 관련이 있지만 History와는 관련이 없다. 즉, policy는 시간과..
반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Markov Decision Processes MDP는 RL에서 주어지는 환경을 이야기한다. 이때 환경은 관찰할 수 있으며, MDP는 RL에서 주어지는 환경을 이야기한다. 이때 환경은 관찰할..