Abstract RL의 time limit을 어떻게 다뤄야 하는지에 대해 연구 Time limit을 적절하게 고려하지 않을 경우 일어나는 문제점 state aliasing invalidation of experience replay 위 문제점들로 인한 sub-optimal policy학습과 training instability 발생 RL적용 시 time horizon 종류별 time limit에대한 관점 제시 Fixed period 이 경우 time limit은 환경의 부분으로 생각해야하며 Markov property를 위반하지 않기위해선 남은 시간(remaining time)에 대한 개념을 고려해야한다. Indefinite period Time limit은 환경으로써 고려될 필요 없고, 오직 학습을 위..
editor, Seungeon Baek(백승언) Reinforcement learning Research Engineer [Kor] 안녕하세요, 오랜만에 블로그를 쓰게 되네요! 이번 글은 논문 리뷰가 아닌, 강화학습 관련한 저의 첫 포스팅 글입니다. 이번에 작성하는 글에서 다루고자 하는 내용은 "강화학습은 어떤 문제를 풀 수 있는가?"입니다. 이와 관련하여, 비슷한 글이 있는지 여러 키워드로 검색을 해 보았는데 강화학습이 어떤 문제를 풀 수 있는지에 대한 내용보다는, 강화학습이 현재 적용되고 있는 분야와 관련된 블로그들이 대부분임을 알 수 있었습니다. (Application of RL, Usage of RL,... etc) 그렇기에, 부족하지만, 제가 한 번 강화학습이 어떤 문제를 풀 수 있는지에 대한 ..
논문 링크 : https://www.i-support-project.eu/web/wp-content/uploads/2018/08/3_Multiobjective-optimization-for-stiffness-and-position-control-in-a-soft-robot-arm-module_SSSA_CL.pdf 배경지식 : distance metric : https://joonable.tistory.com/14 absorbing state : https://en.wikipedia.org/wiki/Absorbing_Markov_chain hypersphere : https://cumulu-s.tistory.com/9 [Abstract] 이 논문의 주된 목적은 노인을 위한 입욕을 도와줄 로봇 팔을 연구..
editor, Seungeon Baek Reinforcement learning Engineer / RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/21 Paper reivew of RL (6) Hindsight Experience Replay (HER) 강화학습 논문 리뷰 연재 여섯 번째 입니다. 현재 감사하게도 함께 하고있는, '로봇이 아닙니다' 팀블로그에 합류한 이후 처음으로 쓰는 연재글이다 보니 퀄리티에 신경을 쓰려고 노력했고, 그 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 여섯 번째 입니다. 현재 감사하게도 함께 하고있는, '로봇..
반년전에 공부하면서 노션에 정리한 강화학습 내용을 다시 복습할 겸 올리는 중입니다. 팡요랩 유튜브 영상을 보며 정리한 내용이며, 분명히 틀린 내용이 많으니 만약 보시는 분들은 참고용으로만 보시면 좋을 것 같습니다. 강화학습이지만 귀찮으니깐 제어 카테고리에 넣겠습니다. 팡요랩 유튜브 영상 : https://www.youtube.com/watch?v=NMesGSXr8H4 강의 자료 (David silver) : https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf Dynamic programming Dynamic programming은 어려운 문제를 작은 단위로 나눠서 푸는 방법이다. 작은 단위 문제(subproblem)을 풀고 솔루션과 subprob..
editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/category/Reinforcement%20Learning/Multi-agent%20RL 'Reinforcement Learning/Multi-agent RL' 카테고리의 글 목록 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 네번째입니다. 이 논문의 경우, RL_Korea의 옥찬호 님께서 주도하시는 RL 논문 리뷰 스터디에 참여하며. 리뷰한 논문으로, 제가 4월 19일에 실제로 스터디 내에서 발..
editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/category/Reinforcement%20Learning/RL%20environment 'Reinforcement Learning/RL environment' 카테고리의 글 목록 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 세번째입니다. 오늘 준비한 논문은 강화학습에서 많이 사용되었던 환경, 최근에 구글에서 공개한 환경과 관련된 논문들을 준비해 보았습니다. (2020년 9월 글입니다.) 각각 ..
editor, Seungeon Baek Reinforcement learning Engineer / RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/4?category=806051 Paper review of RL (2) Agent57: Outperforming the Atari Human Benchmark (DeepMind "Agent57") 강화학습 논문 리뷰 연재 두번째입니다. DeepMind의 이번 연구는, 기존 강화학습 알고리즘의 benchmark로써 자주 활용되곤 하는 모든 Atari 2600 게임에서(수 백개중 벤치마크로써 사용되는 57개의 게임) seungeonbaek.tist..