티스토리 뷰
강화학습 논문 정리 12편 : An Optimistic Perspective on Offline Reinforcement Learning 논문 리뷰 (ICML 2020)
hanyangrobot 2023. 11. 14. 10:45작성자 : 한양대학원 인공지능융합학과 유승환 박사과정 (CAI LAB)
논문 링크 : https://proceedings.mlr.press/v119/agarwal20c.html
An Optimistic Perspective on Offline Reinforcement Learning
Off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline RL using the DQN rep...
proceedings.mlr.press
홈페이지 링크 : https://offline-rl.github.io/
An Optimistic Perspective on Offline Reinforcement Learning
DQN Replay Dataset The DQN Replay Dataset was collected as follows: We first train a DQN agent, on all 60 Atari 2600 games with sticky actions enabled for 200 million frames (standard protocol) and save all of the experience tuples of (observation, action,
offline-rl.github.io
Abstract
(1) 연구 개요 및 제안하는 아이디어
- 강화학습을 실세계에 응용하기 위해서는 고정된 오프라인 데이터셋을 사용하는 오프라인 강화학습을 사용하는 것이 중요한 고려사항임
- 본 연구는 60개의 아타리 2600 게임에서 DQN 에이전트의 전체 replay experience를 포함한 DQN replay dataset을 사용한 오프라인 강화학습을 연구함
- 오프라인 설정에서 일반화 능력을 강화하기 위해, 여러 Q 값 추정치의 랜덤한 convex 조합에 최적 벨만 일관성을 강제하는 robust Q-learning 알고리즘인 Random Ensemble Mixture(REM)을 제안함
(2) 성과
- DQN 리플레이 데이터셋에서 학습된 REM은 강력한 RL 베이스 라인을 뛰어 넘음
- 추가적인 연구는 긍정적인 결과에서 오프라인 데이터셋의 크기와 다양성 및 알고리즘 선택의 역할을 강조함
- 전반적으로 본 연구의 결과들은 충분히 크고 다양한 오프라인 데이터셋에 사용된 robust RL 알고리즘들이 고품질의 정책들로 이어질 수 있다는 "낙관적인 관점"을 제시함
1. Introduction
(1) 온라인 강화학습의 한계점 : 높은 데이터 수집 비용
- 딥러닝의 성공한 주요한 이유 중 하나 : ImageNet과 같은 크고 다양한 데이터셋이 Deep Neural Network를 학습하기 위해 사용되었음
- 반면, 대부분의 강화학습 알고리즘들은 에이전트가 환경과 상호작용하며 자신이 수집한 경험(데이터)으로부터 학습을 진행하며, 이는 실제 세계의 복잡한 문제에 (온라인) 강화학습을 적용하는 것을 어렵게 만듦
- 왜냐하면 에이전트와 환경이 상호작용하며 수집하는 과정은 각 실험마다 처음부터 큰 양의 다양한 데이터를 모으는 것을 의미함
- 실제 환경에서 이러한 데이터를 모으는 행위는 데이터 수집 비용이 많이 들거나, 위험할 수 있음
- 또한 구축하기 어려운 고정밀 시뮬레이터가 필요할 수도 있음
(2) 오프라인 강화학습의 장점 : 에이전트와 환경 간의 추가적인 상호작용이 필요 없음 → 데이터 수집 비용 절감
- 오프라인 강화학습의 정의 : 에이전트와 환경 간의 추가적인 상호작용 없이 고정된 데이터셋으로부터 정책을 학습하는 알고리즘
- 오프라인 강화학습은 실제 세계의 의사 결정 문제에 대한 기존에 기록된 상호작용(s,a,r,s')을 활용할 수 있음
- 이러한 데이터셋의 효과적인 활용은 실세계 RL을 더 실용적으로 만들 뿐만 아니라, 다양한 이전의 경험을 통합하여 더 나은 일반화를 가능하게 할 것임
(3) 선행 연구에서 오프라인 강화학습에 대한 비판적인 시각
- 2019~2020년도의 연구에 따르면 standard off-policy deep RL 알고리즘이 오프라인 설정에서 발산하거나 다른 방식으로 나쁜 성능을 보인다는 불행한 시각을 제시하고 있음
- 이러한 논문들은 학습된 정책이 오프라인 데이터를 수집한 정책의 분포에 가깝게 유지되도록 정규화하는 방안을 제시함
- 또한 Zhang & Sutton(2017)은 큰 리플레이 버퍼가 off-policy 알고리즘의 성능을 저하시킬 수도 있다고 주장함
(4) 본 연구에서 제안하는 오프라인 강화학습에 대한 긍정적인 시각
- 본문에서 제시하는 오프라인 강화학습에 대한 "긍정적인" 관점 : 충분히 크고 다양한 데이터셋이 있으면, 학습된 정책과 데이터 수집 정책 간의 분포 불일치에 대한 명시적인 수정이 없어도, 강력한 RL 알고리즘이 고품질의 정책을 찾을 수 있음
- 본 연구의 "기여점"
- 아타리 2600 게임에 대한 다양한 알고리즘을 평가하기 위한 오프라인 RL 프레임 워크를 제안
- 한 게임 당 5,000만 개의 튜플(s,a,r,s')로 구성된 DQN 에이전트의 로그된 replay data인 DQN replay dataset을 기반으로 함
- 이 데이터셋은 실험의 데이터 수집 비용을 크게 줄이며, 고정된 데이터셋을 사용한 학습을 표준화함으로써 재현성을 향상시킴
- 해당 데이터셋은 위 홈페이지 링크에 공개되어 있음
- 최근 off-policy 알고리즘이 오직 오프라인 데이터만을 사용해 학습할 때도 성공적일 수 있다는 것을 보여줌
- DQN replay dataset에서 학습된 offline QR-DQN은 DQN replay dataset 내의 최고의 정책을 능가함
- 이러한 성능 향상은 오프라인 데이터셋의 크기와 다양성의 차이, 그리고 RL 알고리즘의 선택 때문이라고 생각됨
- Random Ensemble Mixture(REM)이라는 robust Q-learning 알고리즘을 제안
- 이 알고리즘은 여러 Q 값의 추정치의 random convex combinations에 대해 벨만 최적 일관성을 강제함
- offline REM은 오프라인 설정에서 강력한 일반화 성능을 보여주며, offline QR-DQN의 성능을 능가함
- 아타리 2600 게임에 대한 다양한 알고리즘을 평가하기 위한 오프라인 RL 프레임 워크를 제안
2. Off-policy Reinforcement Learning
(1-1) Standard RL
- 강화학습에서 상호작용 환경은 일반적으로 마르코프 결정 과정(MDP)로 설명됨 : $(S, A, R, P, \gamma)$
- $S$ : 상태 공간
- $A$ : 행동 공간
- $R(s,a)$ : 확률적인 보상 함수
- $P(s'|s,a)$ : 상태 전이 확률
- $\gamma \in [0, 1)$ : 감가율
- 확률적 정책 $\pi(\cdot |s)$ 은 각 상태를 행동에 대한 확률 분포로 매핑함
- action-value function Q(s,a)의 정의 : 누적 감가된 미래 보상의 기댓값
- 강화학습의 목표 : maximum expected return을 포함하는 최적 정책 $\pi^{*}$ 찾기
- 벨만 최적 방정식은 최적 Q 값의 측면에서 최적 정책을 특정함
(1-2) Deep Q Network
- DQN은 다음의 loss를 최소화하는 방향으로 학습 됨
(2-1) Distributional RL
- Distributional RL은 각 상태-행동 쌍에 대한 리턴 값의 밀도 $Z^{\pi}(s,a)$를 추정함
- Distributional RL의 벨만 최적 방정식은 아래와 같음
(2-2) C51
- C51 알고리즘은 미리 지정된 anchor point에 대한 categorical distribution를 사용하여 $Z^{*}(s,a)$를 추정함
(2-3) distributional QR-DQN
- QR-DQN 알고리즘은 아래의 수식과 같이 K Dirac delta function의 uniform mixture을 사용하여 $Z^{*}(s,a)$를 추정함
- 본 연구에서는 deep Q-learning 알고리즘의 성능에 초점을 맞추기 위해, n-step updates와 Prioritized Experience Replay 기법을 사용하지 않음
3. Offline Reinforcement Learning
(1) 온라인 강화학습 개요
- 최근의 off-policy deep RL 알고리즘들은 아타리 2600 게임, continuous control MuJoCo task와 같은 일반적인 벤치마크에서 놀랍도록 잘 수행함
- 이러한 off-policy 알고리즘들은 정책을 최적화하는 '학습'과 그 정책을 사용하여 더 많은 데이터를 '수집'하는 것을 반복적으로 진행하며, 이를 온라인으로 간주함
- 일반적으로 이러한 알고리즘들은 유한한 replay buffer에서 가장 최근의 경험들을 슬라이딩 윈도우 형태로 유지하며, 오래된 데이터를 버리고 가장 신선한(on-policy) 경험들을 통합함
(2) 오프라인 강화학습
- 오프라인 RL은 온라인 RL과 달리, 환경과의 추가적인 상호작용 없이 고정된 경험 데이터셋을 사용하여 학습함
- 오프라인 RL 설정은 리플레이 버퍼와 탐험과 관련된 설계 선택 사항을 제거하기 때문에, 온라인 RL 설정보다 실험하고 재현하기가 더 간단함
(3) 오프라인 강화학습이 어려운 문제점 : 학습된 정책과 오프라인 데이터를 수집한 정책 간의 분포 불일치
- 오프라인 RL은 학습된 정책과 오프라인 데이터를 수집한 정책 간의 분포 불일치로 인해 어려움을 겪고 있음
- 즉, 학습되고 있는 정책이 데이터 수집 정책과 다른 행동을 취할 때, 제공되어야 할 보상을 알 수 없음
- 본 연구는 오프라인 RL에서 분포 불일치를 수정하지 않고도 오직 오프라인 데이터에만 학습된 off-policy deep RL 에이전트의 학습이 성공할 수 있는지에 대해 조사함
4. Developing Robust Offline RL Algorithms
(1) 4절 개요
- 온라인 RL 설정에서 에이전트는 환경으로부터 on-policy 데이터를 획득할 수 있음
- 이는 에이전트가 높은 보상으로 이어질 것으로 생각하는 행동을 선택하고, 그 후에 그것의 오류(TD error)를 수정하기 위한 피드백을 받는 순환을 보장함
- 그러나, 오프라인 RL 설정에서 추가 데이터를 수집하는 것이 불가능하기 때문에, 고정된 데이터셋을 사용하여 일반화에 대한 추론할 필요가 있음
- 본 연구는 오프라인 RL 설정에서 일반화를 개선하는 데 중점을 두고, robust한 RL 알고리즘을 설계할 수 있는지 조사함
- 앙상블은 지도 학습에서 일반화를 개선하기 위해 흔히 사용되는 기법임
- 본문에서 오프라인 RL의 일반화를 개선하기 위해 앙상블을 채택한 두 가지 딥 Q-러닝 알고리즘인 Ensemble DQN과 REM을 연구함
4.1 Ensemble-DQN
(1) Ensemble DQN의 개요
- Ensemble DQN은 매개변수화된 Q 함수들의 앙상블을 통해 Q 값을 근사하는 DQN의 간단한 확장임
- Ensembel DQN은 다음의 loss 값을 최소화하는 방향으로 학습됨
- 온라인 RL에서 Ensemble DQN은 각 에피소드에서 탐험을 개선하기 위해 Q 값의 추정치 중 하나를 사용함
- 그러나 오프라인 RL에서는 Ensemble DQN의 더 나은 활용 능력과 평가를 위해 Q 값 추정치의 평균을 사용함
4.2 Random Ensemble Mixture (REM)
(1) REM의 개요
- 앙상블에 사용되는 모델의 수(=위 REM 구조 그림에서는 빨간색 Q 박스의 개수)를 늘리는 것은 일반적으로 지도 학습 모델의 성능을 향상시키지만, 계산량이 지수적으로 증가함
- 드롭아웃에서 영감을 받아, off-policy RL을 위한 random ensemble mixture(REM)를 제안함
(2) REM의 핵심
- REM은 여러 매개변수화된 Q 함수를 사용하며 Q 값을 추정하며, 이는 ensemble DQN과 유사함
- REM의 핵심은 여러 Q 값 추정치의 convex combination을 하나의 Q 값 추정치로 생각할 수 있다는 것임
- 이는 특히 fixed point에서 매우 사실이며, 여기에서 모든 Q 값 추정치가 동일한 Q 함수로 수렴하게 됨 (?)
- 이러한 통찰을 사용하여, 본 연구는 (K-1) simplex에서 혼합 확률로 정의된 Q 함수 근사자를 학습시킴
(3) REM의 학습 방법
- REM은 아래의 Loss 값을 최소화하는 방향으로 학습됨
- categorical distribution $\alpha$ : 최적의 Q-함수를 근사하기 위해 K개의 추정치의 convex 조합을 정의
- $P_{\Delta}$ : 표준 (K-1) SIMPLEX 위의 확률 분포 $\Delta^{k-1} = \left \{ \alpha \in \mathbb{R}^{K} : \alpha_{1}+\alpha_{2}+\cdots +\alpha_{K}=1,\alpha_{K}\geq 0, k=1, \cdots , K \right \}$
- $P_{\Delta}$를 구현하는 방법은 아래에서 설명됨
(4) REM의 구현 방법
- REM은 Q-Learning을 벨만 최적성 제약 조건 (2절의 수식 2)에 기반한 제약 만족 문제로 간주함
- 위 수식 7의 $L(\theta)$는 서로 다른 혼합 확률 본포에 해당하는 무한한 제약 조건 집합으로 볼 수 있음
- 행동을 선택하기 위해, 본 연구는 Q-function으로써 K value 추정치의 평균을 사용함
- REM은 구현하고 분석하기 쉬움
- REM은 value-based RL을 위한 간단한 정규화 기법으로 볼 수 있음
- 본 실험에서 매우 간단한 $P_{\Delta}$ 분포를 사용함 : 먼저 K개의 값들을 독립 동일 분포(i.i.d.)로 균일 분포(uniform (0,1))에서 추출한 후, 이들을 정규화하여 유효한 categorical distribution를 얻음
5. Offline RL on Atari 2600 Games
(1) DQN Replay Dataset의 개요
- 60개의 아타리 2600 게임에서 DQN 에이전트들을 각각 2억 프레임씩 학습하여 Replay Dataset을 제작함
- frame skip은 4로 설정 & sticky action을 적용 (25% 확률로 에이전트의 이전 행동이 현재 행동 대신 실행됨)
- 각 게임에서 random initialization을 한 5개의 다른 에이전트들을 학습하고, 학습 중에 경험한 모든 데이터(s,a,r,s')를 게임 당 5개의 replay dataset에 저장하여 총 300개의 데이터셋이 생성됨 (60개의 게임 * 5개의 replay dataset = 300개의 replay dataset)
- 각 게임의 replay dataset은 대략 ImageNet 데이터셋의 양보다 3.5배 더 많으며, 온라인 DQN 에이전트가 학습하는 동안 나타난 모든 정책에서의 샘플들을 포함함
- 그림 A.4는 데이터 수집에 사용된 개별 에이전트들의 학습 곡선과 학습 중에 찾은 최고 정책의 성능을 보여줌
(2) Experiment Setup
- DQN replay dataset은 환경과의 상호작용 없이 오프라인에서 에이전트를 학습하기 위해 사용됨
- 표준화된 비교를 위해 Dopamine 베이스라인에서 제공하는 하이퍼파라미터를 사용함 (부록 A.4 참고)
- 정규화된 스케일을 사용하여 게임 점수를 기록함 (부록 A.3 참고)
- DQN replay dataset은 학습이 진행됨에 따라 개선되는 DQN 에이전트에 의해 수집된 데이터를 포함하지만, 본 연구는 오프라인 에이전트의 성능을 온라인 DQN의 학습 후에 얻은 최고 성능과 비교함
- 오프라인 에이전트의 평가는 1백만 학습 frame 간격으로 제한된 횟수만큼 온라인으로 수행됨
- 각 게임마다 online return을 사용하여 학습된 5개의 오프라인 에이전트(데이터셋 당 1개씩)를 평가하고, 5개 에이전트의 평균 최고 성능을 보고함
5.1 Can standard off-policy RL algorithms with no environment interactions succeed?
(1) 연구 질문 : 오프라인 RL은 학습이 성공적으로 이루어질 수 있을까?
- 연구 소 질문 1 : DQN replay dataset만을 사용하여 학습된 offline DQN이 얼마나 잘 수행될 수 있을까?
- 연구 소 질문 2 : 최신 off-policy 알고리즘이 offline DQN보다 DQN replay dataset을 더 효과적으로 활용할 수 있을까?
- 위와 같은 질문들을 조사하기 위해, DQN(nature)과 QR-DQN 에이전트를 오프라인 환경에서 DQN replay dataset에 대해 온라인 DQN과 동일한 수의 gradient update로 학습함
(2) 결과 분석 : online DQN vs offline DQN
- 위 그림 4-(a)를 보면 몇몇 게임을 제외하고는 대부분의 게임에서 offline DQN이 완전히 학습된 online DQN보다 성능이 떨어지는 것을 보임
- 반면, 그림 4-(b)를 보면 대부분의 게임에서 offline QR-DQN이 offline DQN과 online DQN보다 나은 성능을 보임
- 그림 3을 보면 offline C-51이 offline DQN보다 나은 성능을 보이고 있음
- 이러한 결과들은 standard deep RL 알고리즘을 DQN replay dataset을 사용하여 오프라인으로 최적화할 수 있음을 보여줌
- 또한 offline QR-DQN/C51과 offline DQN의 성능 차이는 오프라인 데이터를 활용하는 능력의 차이를 나타냄
5.2 Asymptotic performance of offline RL agents
(1) 실험 개요
- 지도 학습에서는 고정된 gradient update 횟수 내의 성능보다 점진적인 성능 향상이 더 중요함
- 마찬가지로, 주어진 replay dataset에 대해, gradient update 수가 실행 가능한 한 최고의 성능을 내는 RL 알고리즘을 선호함
- 오프라인 데이터셋의 샘플 효율성이 고정되어 있기 때문에, offline agent를 DQN보다 5배 많은 gradient update로 학습을 진행할 것임
(2) Comparison with QR-DQN & Additional Baselines
- online QR-DQN과 공정한 비교를 위해 다음과 같이 셋팅을 설정함
- Adam 최적화 알고리즘 사용 (5.1절의 실험은 RMS Prop 최적화 알고리즘 사용)
- K = 200
- online DQN 또한 Adam 최적화 알고리즘을 사용하여 실험 진행
- Anschel et al. (2017)에 의해 제안된 Ensemble-DQN의 변형인 Averaged Ensemble-DQN에 대한 성능도 평가함.
- 이는 예측된 target Q-value의 평균을 벨만 목표로 사용함
- 이 베이스라인은 Ageraged Ensemble DQN의 앙상블 조합이 REM의 random 조합보다 학습 안정화가 좋은지/나쁜지를 확인할 수 있음
(3) Results
- 아래의 표 1을 보면 offline Ensemble DQN 성능은 offline DQN (Adam)의 성능을 개선하지 못하며, 이는 단순한 앙상블 접근법이 불충분함을 보여줌
- 또한 offline Average Ensemble-DQN은 offline Ensemble DQN보다 약간 더 나은 성능을 보임
- 반면에, 더 많은 gradient update로 학습될 때 REM은 QR-DQN을 포함한 다른 에이전트보다 오프라인 데이터를 더 효과적으로 활용할 수 있음을 보여줌
(4) Hypothesis about effectiveness of REM
- REM이 Average Ensemble DQN에 비해 얻는 이득은 무작위로 앙상블된 Q 값 추정치로 인한 노이즈가 더 견고한 학습을 가능하게 하기 때문인것으로 추정됨
- 이는 드롭아웃과 유사함.
5.3 Does REM work in the online setting?
(1) 실험 개요
- 실험 질문 : REM은 온라인 설정에서도 잘 작동될까?
- 온라인 RL에서는 정책의 학습과 데이터 수집이 긴밀하게 연결되어 있으며, 더 빠르게 학습하는 에이전트는 더 관련성 높은 데이터를 수집함
- 더 나은 수렴 속도 때문에 4개의 별도 Q 네트워크를 사용하는 online REM을 실행함 (오프라인 설정에서 multi-head REM을 사용하는 것 대신에!)
- 데이터 수집을 위해, 각 에피소드마다 무작위로 샘플링된 Q 추정치를 사용하는 epislon-geeedy를 사용하며, 이는 Bootstrapped DQN과 유사함
- 아타리에서 표준 online RL 프로토콜을 따르고, 1M 프레임의 고정된 replay buffer를 사용함
(2) 결과 분석
- online 환경에서 REM이 Bootstrapped DQN보다 나은 성능을 보이고 있음
- REM과 QR-DQN의 성능은 비슷함
- 이는 우리가 오프라인 설정에서 얻은 통찰력을 적절한 설계 선택(예: 탐험, replay buffer)과 함께 사용하여 효과적인 온라인 방법을 만들 수 있음을 보여줌
6. Important Factors in Offline RL
(1-1) Dataset Size에 따른 성능 비교
- 본 연구의 오프라인 학습 결과는 DQN에서 게임 당 5천만 개의 튜플이 대부분의 아타리 2600 게임에서 좋은 온라인 성능을 얻는 데 충분함을 보여줌
- 이에 따라 DQN replay dataset의 크기와 그 다양성이 오프라인에서 학습된 표준 off-policy RL 알고리즘의 성공에 중요한 역할을 한다고 가설을 세움
- 이를 위해 DQN replay dataset에서 1%, 10%, 20%, 50%, 100%만큼 랜덤 샘플링해서 학습을 진행한 offline QR-DQN과 REM의 성능을 비교 분석 함
- 실험 결과는 예상대로 데이터의 크기가 증가함에 따라 성능이 향상되는 것을 볼 수 있음
- DQN replay dataset에서 10% 이상 샘플링 했을 때, REM과 QR-DQN은 대부분의 게임들에서 online DQN과 비슷한 성능을 내는 것을 볼 수 있음
- 그러나 1%만을 샘플링 했을때는 성능이 급격하게 악화됨
(1-2) Dataset Diversity에 따른 성능 비교
- 오프라인 데이터셋의 품질에 따른 성능을 확인하기 위해, DQN replay dataset의 첫 2천만 프레임에서 오프라인 에이전트는 학습하는 실험을 수행함
- 이 데이터셋은 sub-optimal return을 가진 탐험 데이터를 대략적으로 모방하는 낮은 퀄리티의 데이터셋임
- 전체 데이터셋을 사용한 오프라인 결과와 유사하게, 대부분의 아타리 게임에서, offlien REM과 QR-DQN이 online DQN의 성능을 능가하는 것을 볼 수 있음
- 이는 standard RL 에이전트가 충분히 다양한 오프라인 데이터셋으로도 잘 작동하는 것을 보여줌
(2) Offline Continous Control에서도 잘 작동 될까?
- DDPG 에이전트를 1백만 타임 스텝동안 학습하고 경험한 모든 transitions(s,a,r,s')를 저장함
- 이 데이터셋을 사용하여, TD3, DDPG, BCQ 에이전트를 완전히 오프라인으로 학습을 진행함
- offline TD3와 offline BCQ는 online DDPG의 성능을 능가하는 것을 볼 수 있음
8. Future Work
(1) DQN Replay Dataset의 다양한 응용
- DQN Replay Dataset의 초반 데이터는 최적이 아닌 탐험 데이터에 가깝고, 후반 데이터는 최적 데이터에 가까움. 이러한 경향을 사용하여 다양한 실험을 적용 가능
- 또한 6절의 실험과 유사하게 DQN Replay Dataset의 일부를 무작위로 샘플링하여 실험 적용 가능
(2) REM을 continous control task에 응용
- REM은 무작위화된 Q 앙상블을 단순하게 사용하기 때문에, 기존의 Q-learning 방법들을 포함한 distributional RL과 REM을 결합하는 것이 다양함
- 이는 REM을 actor-critic 방법론에서 가치 기준 추정을 개선하는 데 사용될 수 있음을 의미함
- BCQ와 같은 행동 규제 방법들과 결합하여 더 나은 오프라인 RL 알고리즘을 만들 수도 있음
(3) Overfitting 진단 방법
- 현재는 오프라인 학습 중에 온라인 평가를 진행하여 오프라인 RL 에이전트가 과적합/과소적합 되었는지를 판단하고 있음
- 하지만 진정한 offline RL은 오프라인 정책 평가만으로도 과적합/과소적합을 평가할 수 있어야함
- 또한 오프라인 RL의 샘플 효율성을 향상시키는 연구도 필요함
9. Conclusion
(1) 논문 내용 요약
- 본 연구는 DQN 에이전트의 기록된 경험을 바탕으로 아타리 2600 게임에서의 오프라인 강화학습을 연구함
- 본 연구의 실험 결과는 표준 RL 방법들이 DQN replay dataset에서 아타리 게임을 플레이 하는 방법을 배울 수 있으며, 이는 데이터셋(online DQN)의 최고 성능보다 낫다는 것을 보여줌
- DQN replay dataset은 오프라인 RL을 위한 벤치마크로 사용될 수 있음
- 이 결과들은 대규모 오프라인 데이터셋에서 효과적으로 학습할 수 있는 강력한 RL 알고리즘들이 개발될 수 있다는 긍정적인 관점을 제시함
- REM은 오프라인 설정에서 간단한 앙상블 방법들조차 효과적일 수 있다는 것을 보여줌
(2) 오프라인 RL의 잠재력 : Offline RL with online tuning의 가능성
- 전반적으로, 이 논문은 오프라인 RL의 잠재력을 보여줌.
- 이는 data-driven RL 패러다임을 창출하는데 있어, 기존의 다양한 대규모 데이터셋으로 RL 에이전트를 사전학습 할 수 있음
- 이렇게 함으로써 샘플 효율성이 높은 에이전트를 만들 수 있으며, 이들은 실제 세계에 배치되어 지속적으로 학습할 수 있음