Abstract RL의 time limit을 어떻게 다뤄야 하는지에 대해 연구 Time limit을 적절하게 고려하지 않을 경우 일어나는 문제점 state aliasing invalidation of experience replay 위 문제점들로 인한 sub-optimal policy학습과 training instability 발생 RL적용 시 time horizon 종류별 time limit에대한 관점 제시 Fixed period 이 경우 time limit은 환경의 부분으로 생각해야하며 Markov property를 위반하지 않기위해선 남은 시간(remaining time)에 대한 개념을 고려해야한다. Indefinite period Time limit은 환경으로써 고려될 필요 없고, 오직 학습을 위..
editor, Seungeon Baek(백승언) Reinforcement learning Research Engineer [Kor] 안녕하세요, 오랜만에 블로그를 쓰게 되네요! 이번 글은 논문 리뷰가 아닌, 강화학습 관련한 저의 첫 포스팅 글입니다. 이번에 작성하는 글에서 다루고자 하는 내용은 "강화학습은 어떤 문제를 풀 수 있는가?"입니다. 이와 관련하여, 비슷한 글이 있는지 여러 키워드로 검색을 해 보았는데 강화학습이 어떤 문제를 풀 수 있는지에 대한 내용보다는, 강화학습이 현재 적용되고 있는 분야와 관련된 블로그들이 대부분임을 알 수 있었습니다. (Application of RL, Usage of RL,... etc) 그렇기에, 부족하지만, 제가 한 번 강화학습이 어떤 문제를 풀 수 있는지에 대한 ..
editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/category/Reinforcement%20Learning/RL%20environment 'Reinforcement Learning/RL environment' 카테고리의 글 목록 seungeonbaek.tistory.com 클릭해 주셔서 감사합니다. 강화학습 논문 리뷰 연재 세번째입니다. 오늘 준비한 논문은 강화학습에서 많이 사용되었던 환경, 최근에 구글에서 공개한 환경과 관련된 논문들을 준비해 보았습니다. (2020년 9월 글입니다.) 각각 ..
editor, Seungeon Baek Reinforcement learning Engineer / RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/4?category=806051 Paper review of RL (2) Agent57: Outperforming the Atari Human Benchmark (DeepMind "Agent57") 강화학습 논문 리뷰 연재 두번째입니다. DeepMind의 이번 연구는, 기존 강화학습 알고리즘의 benchmark로써 자주 활용되곤 하는 모든 Atari 2600 게임에서(수 백개중 벤치마크로써 사용되는 57개의 게임) seungeonbaek.tist..
editor, Seungeon Baek Reinforcement learning Engineer /RL, Planning and Control - 해당 글은 개인 블로그의 글들을 옮겨온 글입니다. - https://seungeonbaek.tistory.com/2?category=806048 Paper review of RL (1) Dota2 with Large Scale Deep Reinforcement Learning (OpenAI "Five") 강화학습 연구 관련 트렌드를 파악하기 위하여, 블로그에서 강화학습 논문 리뷰 연재를 시작하게 되었습니다. 꾸준히 작성하여 많은 사람들에게 도움이 되었으면 좋겠습니다! DeepMind의 연구진 seungeonbaek.tistory.com 클릭해 주셔서 감사합니..
QMIX는 저번 COMA리뷰에 이은 2번째 멀티에이전트 강화학습에 대한 논문리뷰입니다. QMIX에 대해 공부할때는 크게 3가지 자료를 보시면 많이 도움이 되는데요, 1. 원 논문 arxiv.org/abs/1803.11485 QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centr..
editor, Junyeob Baek Robotics Software Engineer /RL, Motion Planning and Control, SLAM, Vision 이번에는 얼마전 Github에 공개한 오픈소스 패키지에 대해 소개해보려한다. :) policy distillation은 현재 연구중인 논문과 관련해 찾아보다가 유용하게 쓸 수 있겠다 싶어 자세히 공부하고 있었던 개념이다. 근데 생각보다 Github에 control task를 위한 policy distillation 모듈이 제대로 구현되어있는 repo가 없다는게 함정이다. 나름 DeepMind에서 나온 논문이고 쓸만하다고 생각하는 개념인데 인기가 생각보다 없나보다...T.T 어짜피 하던 연구를 진행하려면 제대로 된 policy distil..
# 지금 연구하는 분야를 설명하자면 멀티로봇시스템을 운용하게 될 때, 진행해야하는 다양한 작업들을 어떻게 효율적으로 로봇에 할당시켜 실행할 것인지를 결정하는 의사결정 알고리즘을 만드는 것이 목표이다. # 좀 간단하게 구체화 하자면 내가 운용할 $N$대의 멀티로봇 개체가 존재하고, $$(A_1, A_2, A_3, \cdots, A_N)$$ 내가 원하는 복합적 미션을 수행하기위한 임의의 작업이 $M$개 주어졌다고 했을 때 $$(T_1, T_2, T_3, \cdots, T_M)$$ 각 로봇들을 어떤 작업에, 어떤 순서로 할당해야 수행하고자하는 미션의 performance를 최대화하고 거기에 사용되는 cost를 최소화 할 수 있는지, 최대한 최적화된 의사결정을 하는 것을 의미한다. 여기서 작업(task)이란, ..