티스토리 뷰
강화학습 논문 정리 4편 : PER 논문 리뷰 (Prioritized Experience Replay)
hanyangrobot 2021. 7. 28. 19:21작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB)
작성자 2 : 한양대학교 인공지능융합학과 정범수 석사과정 (CAI LAB)
작성자 3 : 한양대학교 로봇공학과 홍윤기 학부연구생
작성자 4 : 한양대학교 로봇공학과 임준희 학부연구생
안녕하세요~!! 오늘은 PER : Prioritized Experience Replay 논문을 리뷰해보겠습니다~! 오늘은 글 대신 PDF 링크 형태로 업로드를 하겠습니다!! 강린이(강화학습 어린이ㅎㅎ)가 작성한 내용이다보니... 틀린 내용이 있을 수도 있습니다ㅜㅜ 오류들은 댓글로 피드백을 남겨주시면 너무 감사하겠습니다~!
PER을 요약하자면, 우선순위가 높은 강화학습 데이터를 선별해서 학습하는 기법이라고 볼 수 있습니다!
강화학습의 데이터란 (State, Action, Reward, Next_State) 형태의 transition을 의미합니다.
이러한 transition들이 Replay Buffer(혹은 Memory)에 저장되죠.
Replay Buffer에 일정량의 transition이 쌓이게 되면 (일반적으로 그 양의 기준은 batch size) 랜덤하게 셔플한 후, batch size만큼 랜덤하게 transition들을 뽑아서 학습에 사용하게 됩니다.
이 때, transition에도 좋은 quality의 transition이 있고, 나쁜 quality의 transition들이 있을겁니다.
당연히 좋은 quality의 transition을 위주로 학습을 진행한다면, 학습이 좀 더 빠르게 수렴할 수 있겠죠!!
해당 Quality의 기준은 무엇일까요? 또 이 기준을 구현할 수 있는 알고리즘들은 어떤 것들이 있을까요?!
저희가 준비한 PER의 자료를 읽으면서 같이 이해해봅시다~!!
https://drive.google.com/file/d/1cE5PwIAat19rHZj3Jb1REWqzoYR7Al9v/view?usp=sharing