![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/c8tK6x/btrvwiwBuqt/k25ca6bEcBrjJmpw9G2Y3K/img.jpg)
작성자 : 한양대학원 인공지능융합학과 유승환 박사과정 (CAI LAB) 드디어... 블로그에 논문 리뷰 글을 포스팅할 수 있게 되었습니다 ㅎㅎ 방학 때는 열심히 논문 리뷰와 연구 프로젝트 3개의 진행을, 학기 중에는 수업 4개와 5개의 연구 프로젝트를 진행하다보니 1개의 몸둥아리 밖에 없는게 너무 서글픕니다 ㅋㅋ 그래도 열심히해서 살아남겠습니다 ㅎㅎ 오늘부터 차근차근 겨울방학 때 강화학습 논문을 리뷰했던 내용을 올리고자 합니다~! 이번 포스팅은 강화학습 분야의 Sim-to-Real Transfer에 대한 서베이 논문을 리뷰하고자 합니다! 글로도 보완 설명을 하고 싶었으나, 시간이 부족한 관계로... 저를 포함한 대학원생 및 학부연구생 친구들이 논문 리뷰를 진행했던 피피티 원본을 공유하고자 합니다 ㅎㅎ 궁..
보호되어 있는 글입니다.
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bS9P5c/btrfpgBYg1R/zKqW6pV5LnVqKykexbAsD1/img.png)
작성자 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 정말 오랜만에!!! 작성하는 논문 리뷰입니다!ㅎㅎ 올해 저는 6축 협동로봇 UR5e에 강화학습을 적용하는 연구를 진행하고 있습니다! 첫 강화학습 연구다보니 감을 익혀보기 위해 action space의 차원을 간략화 시켜서, 앤드이펙터의 x, y 좌표, 즉 2차원의 action space를 가지고 DDPG 모델을 진행하고 있습니다ㅎㅎ 그런데... 학습을 진행할수록 x, y 좌표가 한 방향으로 증가 혹은 감소하는, 즉 한 point로 수렴해서 갇히는 문제가 발생하고 있습니다ㅜㅜ 그래서 DDPG의 한계점 및 해결책을 파악하고자, 이번 논문을 리뷰하고자 합니다! 그럼 시작하겠습니다~!! :) 1. 참고 링크 (원문) : https://ar..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bmDBO9/btrbLfSF461/TRZFa1y2BDshP3O5db7NK0/img.png)
작성자 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 안녕하세요~!! 오늘은 오프라인 강화학습 알고리즘 중 하나인 CQL : Conservative Q-Learning의 논문 리뷰를 진행하겠습니다! 'Conservative'의 뜻은 '보수적'이라는 뜻을 지니고 있는데요~ 이 의미가 어떻게 CQL 알고리즘에 표현되는지를 보겠습니다!! 실제 다관절 로봇에 강화학습을 적용하려는 저와 같은 연구자분들은 기존의 강화학습(ex : Off-Policy RL)을 사용하려면 Experience Replay Buffer에 수많은 데이터를 쌓아야해서, 데이터 수집 비용이 비싸다는 한계점이 있었는데, 이를 어떻게 극복했는지를 한번 알아보겠습니다~! 1. 원문 링크 : https://arxiv.org/abs..
작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 작성자 2 : 한양대학교 인공지능융합학과 정범수 석사과정 (CAI LAB) 작성자 3 : 한양대학교 로봇공학과 홍윤기 학부연구생 작성자 4 : 한양대학교 로봇공학과 임준희 학부연구생 안녕하세요~!! 오늘은 PER : Prioritized Experience Replay 논문을 리뷰해보겠습니다~! 오늘은 글 대신 PDF 링크 형태로 업로드를 하겠습니다!! 강린이(강화학습 어린이ㅎㅎ)가 작성한 내용이다보니... 틀린 내용이 있을 수도 있습니다ㅜㅜ 오류들은 댓글로 피드백을 남겨주시면 너무 감사하겠습니다~! PER을 요약하자면, 우선순위가 높은 강화학습 데이터를 선별해서 학습하는 기법이라고 볼 수 있습니다! 강화학습의 데이터란 (Sta..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/cxp874/btq7Q9IH3ko/sygnIjUIXD4CuAlKDZoWY1/img.png)
작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 작성자 2 : 한양대학교 로봇공학과 홍윤기 학부연구생 정말 오랜만에 팀블로그에 글을 작성해보네요ㅎㅎ 오늘은 value iter 기반 강화학습 알고리즘인 DDQN : Deep Reinforcement Learning with Double Q-learning 논문 리뷰를 진행하겠습니다!! 참고로 DDQN은 AAAI 2016에 출판(?)된 논문입니다~ 링크 0 (원문) : https://arxiv.org/pdf/1509.06461.pdf 링크 1 (참고 블로그) : https://taek-l.tistory.com/36 [강화학습 Key Paper] Double DQN 본 포스트는 OpenAI에서 공개한 강화학습 교육자료인 Spinni..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bHFCC1/btq2YRHUp4T/QMFBzI75RSA9MvCaD0i3s0/img.png)
작성자 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 오늘은 PMLR(Proceedings of Machine Learning Research) 학회의 2019년에 나온 딥러닝 논문인 EfficientNet에 대해 리뷰해보겠습니다~!원문 : arxiv.org/pdf/1905.11946.pdf참고 블로그 : hoya012.github.io/blog/EfficientNet-review/ EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 리뷰ICML 2019에 제출된 “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks” 논문에 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/c0HwuY/btq0qAa4w2q/Fp9LptcGWHI15xQOtHkdek/img.gif)
작성자 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 이번에는 Policy Gradient 기반 강화학습 알고리즘인 DDPG : Continuous Control With Deep Reinforcement Learning 논문 리뷰를 진행해보겠습니다~! 제 선배님들이 DDPG를 너무 잘 정리하셔서 참고 링크에 첨부합니다! 그럼 리뷰 시이이작!!! 링크 0 (원문 ) : arxiv.org/pdf/1509.02971.pdf 링크 1 (DDPG 리뷰 1, ppt 정리) : ropiens.tistory.com/37 [Keep9oing] Deep deterministic policy gradient (DDPG) ddpg seminar from 민재 정 두번째 세미나 자료, 역시나 슬라이드 쉐어..