티스토리 뷰

작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB)

작성자 2 : 한양대학교 인공지능융합학과 정범수 석사과정 (CAI LAB)

작성자 3 : 한양대학교 로봇공학과 홍윤기 학부연구생

작성자 4 : 한양대학교 로봇공학과 임준희 학부연구생

 

  안녕하세요~!! 오늘은 PER : Prioritized Experience Replay 논문을 리뷰해보겠습니다~! 오늘은 글 대신 PDF 링크 형태로 업로드를 하겠습니다!! 강린이(강화학습 어린이ㅎㅎ)가 작성한 내용이다보니... 틀린 내용이 있을 수도 있습니다ㅜㅜ 오류들은 댓글로 피드백을 남겨주시면 너무 감사하겠습니다~!


PER을 요약하자면, 우선순위가 높은 강화학습 데이터를 선별해서 학습하는 기법이라고 볼 수 있습니다!

 

강화학습의 데이터란 (State, Action, Reward, Next_State) 형태의 transition을 의미합니다.

 

이러한 transition들이 Replay Buffer(혹은 Memory)에 저장되죠.

 

Replay Buffer에 일정량의 transition이 쌓이게 되면 (일반적으로 그 양의 기준은 batch size) 랜덤하게 셔플한 후, batch size만큼 랜덤하게 transition들을 뽑아서 학습에 사용하게 됩니다.

 

이 때, transition에도 좋은 quality의 transition이 있고, 나쁜 quality의 transition들이 있을겁니다.

 

당연히 좋은 quality의 transition을 위주로 학습을 진행한다면, 학습이 좀 더 빠르게 수렴할 수 있겠죠!!

 

해당 Quality의 기준은 무엇일까요? 또 이 기준을 구현할 수 있는 알고리즘들은 어떤 것들이 있을까요?!

 

저희가 준비한 PER의 자료를 읽으면서 같이 이해해봅시다~!!


https://drive.google.com/file/d/1cE5PwIAat19rHZj3Jb1REWqzoYR7Al9v/view?usp=sharing 

 

210710_PER 리뷰_최종.pdf

 

drive.google.com


 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31