강화학습 논문 정리 4편 : PER 논문 리뷰 (Prioritized Experience Replay)

티스토리 뷰

sinanju06/딥러닝 논문 리뷰

강화학습 논문 정리 4편 : PER 논문 리뷰 (Prioritized Experience Replay)

hanyangrobot 2021. 7. 28. 19:21

작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB)

작성자 2 : 한양대학교 인공지능융합학과 정범수 석사과정 (CAI LAB)

작성자 3 : 한양대학교 로봇공학과 홍윤기 학부연구생

작성자 4 : 한양대학교 로봇공학과 임준희 학부연구생

안녕하세요~!! 오늘은 PER : Prioritized Experience Replay 논문을 리뷰해보겠습니다~! 오늘은 글 대신 PDF 링크 형태로 업로드를 하겠습니다!! 강린이(강화학습 어린이ㅎㅎ)가 작성한 내용이다보니... 틀린 내용이 있을 수도 있습니다ㅜㅜ 오류들은 댓글로 피드백을 남겨주시면 너무 감사하겠습니다~!

PER을 요약하자면, 우선순위가 높은 강화학습 데이터를 선별해서 학습하는 기법이라고 볼 수 있습니다!

강화학습의 데이터란 (State, Action, Reward, Next_State) 형태의 transition을 의미합니다.

이러한 transition들이 Replay Buffer(혹은 Memory)에 저장되죠.

Replay Buffer에 일정량의 transition이 쌓이게 되면 (일반적으로 그 양의 기준은 batch size) 랜덤하게 셔플한 후, batch size만큼 랜덤하게 transition들을 뽑아서 학습에 사용하게 됩니다.

이 때, transition에도 좋은 quality의 transition이 있고, 나쁜 quality의 transition들이 있을겁니다.

당연히 좋은 quality의 transition을 위주로 학습을 진행한다면, 학습이 좀 더 빠르게 수렴할 수 있겠죠!!

해당 Quality의 기준은 무엇일까요? 또 이 기준을 구현할 수 있는 알고리즘들은 어떤 것들이 있을까요?!

저희가 준비한 PER의 자료를 읽으면서 같이 이해해봅시다~!!

https://drive.google.com/file/d/1cE5PwIAat19rHZj3Jb1REWqzoYR7Al9v/view?usp=sharing

210710_PER 리뷰_최종.pdf

drive.google.com

'sinanju06 > 딥러닝 논문 리뷰' 카테고리의 다른 글

강화학습 논문 정리 6편 : The Problem With DDPG 논문 리뷰 (9)	2021.09.19
강화학습 논문 정리 5편 : CQL 논문 리뷰 (Conservative Q-Learning for Offline Reinforcement Learning) (업데이트 중) (7)	2021.08.10
강화학습 논문 정리 3편 : DDQN 논문 리뷰 (Deep Reinforcement Learning with Double Q-learning) (4)	2021.06.20
EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks 논문 리뷰 (7)	2021.04.18
강화학습 논문 정리 2편 : DDPG 논문 리뷰 (Deep Deterministic Policy Gradient) (9)	2021.03.16

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

로봇이 아닙니다.

티스토리 뷰

강화학습 논문 정리 4편 : PER 논문 리뷰 (Prioritized Experience Replay)

'sinanju06 > 딥러닝 논문 리뷰' 카테고리의 다른 글

티스토리툴바