티스토리 뷰

작성자 : 한양대학원 인공지능융합학과 유승환 박사과정 (CAI LAB)


논문 링크 : https://proceedings.mlr.press/v119/agarwal20c.html

 

An Optimistic Perspective on Offline Reinforcement Learning

Off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline RL using the DQN rep...

proceedings.mlr.press

홈페이지 링크 : https://offline-rl.github.io/

 

An Optimistic Perspective on Offline Reinforcement Learning

DQN Replay Dataset The DQN Replay Dataset was collected as follows: We first train a DQN agent, on all 60 Atari 2600 games with sticky actions enabled for 200 million frames (standard protocol) and save all of the experience tuples of (observation, action,

offline-rl.github.io


Abstract

(1) 연구 개요 및 제안하는 아이디어

  • 강화학습을 실세계에 응용하기 위해서는 고정된 오프라인 데이터셋을 사용하는 오프라인 강화학습을 사용하는 것이 중요한 고려사항임
  • 본 연구는 60개의 아타리 2600 게임에서 DQN 에이전트의 전체 replay experience를 포함한 DQN replay dataset을 사용한 오프라인 강화학습을 연구함
  • 오프라인 설정에서 일반화 능력을 강화하기 위해, 여러 Q 값 추정치의 랜덤한 convex 조합에 최적 벨만 일관성을 강제하는 robust Q-learning 알고리즘인 Random Ensemble Mixture(REM)을 제안

(2) 성과

  • DQN 리플레이 데이터셋에서 학습된 REM은 강력한 RL 베이스 라인을 뛰어 넘음
  • 추가적인 연구는 긍정적인 결과에서 오프라인 데이터셋의 크기와 다양성 및 알고리즘 선택의 역할을 강조함
  • 전반적으로 본 연구의 결과들은 충분히 크고 다양한 오프라인 데이터셋에 사용된 robust RL 알고리즘들이 고품질의 정책들로 이어질 수 있다"낙관적인 관점"을 제시함

1. Introduction

(1) 온라인 강화학습의 한계점 : 높은 데이터 수집 비용

  • 딥러닝의 성공한 주요한 이유 중 하나 : ImageNet과 같은 크고 다양한 데이터셋이 Deep Neural Network를 학습하기 위해 사용되었음
  • 반면, 대부분의 강화학습 알고리즘들은 에이전트가 환경과 상호작용하며 자신이 수집한 경험(데이터)으로부터 학습을 진행하며, 이는 실제 세계의 복잡한 문제에 (온라인) 강화학습을 적용하는 것을 어렵게 만듦
    • 왜냐하면 에이전트와 환경이 상호작용하며 수집하는 과정은 각 실험마다 처음부터 큰 양의 다양한 데이터를 모으는 것을 의미
    • 실제 환경에서 이러한 데이터를 모으는 행위는 데이터 수집 비용이 많이 들거나, 위험할 수 있음
    • 또한 구축하기 어려운 고정밀 시뮬레이터가 필요할 수도 있음

(2) 오프라인 강화학습의 장점 : 에이전트와 환경 간의 추가적인 상호작용이 필요 없음 → 데이터 수집 비용 절감

  • 오프라인 강화학습의 정의 : 에이전트와 환경 간의 추가적인 상호작용 없이 고정된 데이터셋으로부터 정책을 학습하는 알고리즘
  • 오프라인 강화학습은 실제 세계의 의사 결정 문제에 대한 기존에 기록된 상호작용(s,a,r,s')을 활용할 수 있음
  • 이러한 데이터셋의 효과적인 활용은 실세계 RL을 더 실용적으로 만들 뿐만 아니라, 다양한 이전의 경험을 통합하여 더 나은 일반화를 가능하게 할 것임

(3) 선행 연구에서 오프라인 강화학습에 대한 비판적인 시각

  • 2019~2020년도의 연구에 따르면 standard off-policy deep RL 알고리즘이 오프라인 설정에서 발산하거나 다른 방식으로 나쁜 성능을 보인다는 불행한 시각을 제시하고 있음
  • 이러한 논문들은 학습된 정책이 오프라인 데이터를 수집한 정책의 분포에 가깝게 유지되도록 정규화하는 방안을 제시함
  • 또한 Zhang & Sutton(2017)은 큰 리플레이 버퍼가 off-policy 알고리즘의 성능을 저하시킬 수도 있다고 주장함

(4) 본 연구에서 제안하는 오프라인 강화학습에 대한 긍정적인 시각

  • 본문에서 제시하는 오프라인 강화학습에 대한 "긍정적인" 관점 : 충분히 크고 다양한 데이터셋이 있으면, 학습된 정책과 데이터 수집 정책 간의 분포 불일치에 대한 명시적인 수정이 없어도, 강력한 RL 알고리즘이 고품질의 정책을 찾을 수 있음
  • 본 연구의 "기여점"
    1. 아타리 2600 게임에 대한 다양한 알고리즘을 평가하기 위한 오프라인 RL 프레임 워크를 제안
      • 한 게임 당 5,000만 개의 튜플(s,a,r,s')로 구성된 DQN 에이전트의 로그된 replay data인 DQN replay dataset을 기반으로 함
      • 이 데이터셋은 실험의 데이터 수집 비용을 크게 줄이며, 고정된 데이터셋을 사용한 학습을 표준화함으로써 재현성을 향상시킴
      • 해당 데이터셋은 위 홈페이지 링크에 공개되어 있음
    2. 최근 off-policy 알고리즘이 오직 오프라인 데이터만을 사용해 학습할 때도 성공적일 수 있다는 것을 보여줌
      • DQN replay dataset에서 학습된 offline QR-DQN은 DQN replay dataset 내의 최고의 정책을 능가
      • 이러한 성능 향상은 오프라인 데이터셋의 크기와 다양성의 차이, 그리고 RL 알고리즘의 선택 때문이라고 생각됨
    3. Random Ensemble Mixture(REM)이라는 robust Q-learning 알고리즘을 제안
      • 이 알고리즘은 여러 Q 값의 추정치의 random convex combinations에 대해 벨만 최적 일관성을 강제함
      • offline REM은 오프라인 설정에서 강력한 일반화 성능을 보여주며, offline QR-DQN의 성능을 능가함

offline REM, offline QR-DQN은 online DQN의 성능을 뛰어 넘을 수 있음! (출처 : 본문)


2. Off-policy Reinforcement Learning

(1-1) Standard RL

  • 강화학습에서 상호작용 환경은 일반적으로 마르코프 결정 과정(MDP)로 설명됨 : $(S, A, R, P, \gamma)$
    • $S$ : 상태 공간
    • $A$ : 행동 공간
    • $R(s,a)$ : 확률적인 보상 함수
    • $P(s'|s,a)$ : 상태 전이 확률
    • $\gamma \in [0, 1)$ : 감가율
  • 확률적 정책 $\pi(\cdot |s)$ 은 각 상태를 행동에 대한 확률 분포로 매핑함
  • action-value function Q(s,a)의 정의 : 누적 감가된 미래 보상의 기댓값

action-value function의 정의 (출처 : 본문)

  • 강화학습의 목표 : maximum expected return을 포함하는 최적 정책 $\pi^{*}$ 찾기
  • 벨만 최적 방정식은 최적 Q 값의 측면에서 최적 정책을 특정함

벨만 최적 방정식 (출처 : 본문)

(1-2) Deep Q Network

DQN 구조

  • DQN은 다음의 loss를 최소화하는 방향으로 학습 됨

DQN의 Loss Function (출처 : 본문)

(2-1) Distributional RL

  • Distributional RL은 각 상태-행동 쌍에 대한 리턴 값의 밀도 $Z^{\pi}(s,a)$를 추정
  • Distributional RL의 벨만 최적 방정식은 아래와 같음

Distributional RL의 벨만 최적 방정식

(2-2) C51

  • C51 알고리즘은 미리 지정된 anchor point에 대한 categorical distribution를 사용하여 $Z^{*}(s,a)$를 추정함

(2-3) distributional QR-DQN

QR-DQN 구조 (출처 : 본문)

  • QR-DQN 알고리즘은 아래의 수식과 같이 K Dirac delta function의 uniform mixture을 사용하여 $Z^{*}(s,a)$를 추정함

QR-DQN이 Z를 추정하는 방법 (출처 : 본문)

  • 본 연구에서는 deep Q-learning 알고리즘의 성능에 초점을 맞추기 위해, n-step updates와 Prioritized Experience Replay 기법을 사용하지 않음

3. Offline Reinforcement Learning

(1) 온라인 강화학습 개요

  • 최근의 off-policy deep RL 알고리즘들은 아타리 2600 게임, continuous control MuJoCo task와 같은 일반적인 벤치마크에서 놀랍도록 잘 수행함
  • 이러한 off-policy 알고리즘들은 정책을 최적화하는 '학습'과 그 정책을 사용하여 더 많은 데이터를 '수집'하는 것을 반복으로 진행하며, 이를 온라인으로 간주함
  • 일반적으로 이러한 알고리즘들은 유한한 replay buffer에서 가장 최근의 경험들을 슬라이딩 윈도우 형태로 유지하며, 오래된 데이터를 버리고 가장 신선한(on-policy) 경험들을 통합함

(2) 오프라인 강화학습

  • 오프라인 RL은 온라인 RL과 달리, 환경과의 추가적인 상호작용 없이 고정된 경험 데이터셋을 사용하여 학습함
  • 오프라인 RL 설정은 리플레이 버퍼와 탐험과 관련된 설계 선택 사항을 제거하기 때문에, 온라인 RL 설정보다 실험하고 재현하기가 더 간단함

(3) 오프라인 강화학습이 어려운 문제점 : 학습된 정책과 오프라인 데이터를 수집한 정책 간의 분포 불일치

  • 오프라인 RL은 학습된 정책과 오프라인 데이터를 수집한 정책 간의 분포 불일치로 인해 어려움을 겪고 있음
  • 즉, 학습되고 있는 정책이 데이터 수집 정책과 다른 행동을 취할 때, 제공되어야 할 보상을 알 수 없음
  • 본 연구는 오프라인 RL에서 분포 불일치를 수정하지 않고도 오직 오프라인 데이터에만 학습된 off-policy deep RL 에이전트의 학습이 성공할 수 있는지에 대해 조사함

오프라인 강화학습이 어려운 이유 : 학습 데이터에는 현재 상태에서 행동을 취했을 때의 보상이 주어져 있지만, 학습 데이터에 없는 행동에 대한 보상은 알 수 없으므로, 데이터에 없는 행동이 좋은지 혹은 나쁜지 알 수가 없음 (출처 : https://www.youtube.com/watch?v=NV4oSWe1H9o)


4. Developing Robust Offline RL Algorithms

(1) 4절 개요

  • 온라인 RL 설정에서 에이전트는 환경으로부터 on-policy 데이터를 획득할 수 있음
  • 이는 에이전트가 높은 보상으로 이어질 것으로 생각하는 행동을 선택하고, 그 후에 그것의 오류(TD error)를 수정하기 위한 피드백을 받는 순환을 보장함
  • 그러나, 오프라인 RL 설정에서 추가 데이터를 수집하는 것이 불가능하기 때문에, 고정된 데이터셋을 사용하여 일반화에 대한 추론할 필요가 있음
  • 본 연구는 오프라인 RL 설정에서 일반화를 개선하는 데 중점을 두고, robust한 RL 알고리즘을 설계할 수 있는지 조사함
    • 앙상블은 지도 학습에서 일반화를 개선하기 위해 흔히 사용되는 기법임
    • 본문에서 오프라인 RL의 일반화를 개선하기 위해 앙상블을 채택한 두 가지 딥 Q-러닝 알고리즘인 Ensemble DQN과 REM을 연구

앙상블 개념 예시 (출처 : https://medium.com/dawn-cau/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%9E%80-cf1fcb97f9d0)

4.1 Ensemble-DQN

Ensemble DQN 구조 (출처 : 본문)

(1) Ensemble DQN의 개요

  • Ensemble DQN은 매개변수화된 Q 함수들의 앙상블을 통해 Q 값을 근사하는 DQN의 간단한 확장임
  • Ensembel DQN은 다음의 loss 값을 최소화하는 방향으로 학습됨

Ensembel DQN의 loss function. loss function은 DQN과 동일한 Huber loss를 사용 (출처 : 본문)

  • 온라인 RL에서 Ensemble DQN은 각 에피소드에서 탐험을 개선하기 위해 Q 값의 추정치 중 하나를 사용함
  • 그러나 오프라인 RL에서는 Ensemble DQN의 더 나은 활용 능력과 평가를 위해 Q 값 추정치의 평균을 사용함

4.2 Random Ensemble Mixture (REM)

REM 구조 (출처 : 본문)

(1) REM의 개요

  • 앙상블에 사용되는 모델의 수(=위 REM 구조 그림에서는 빨간색 Q 박스의 개수)를 늘리는 것은 일반적으로 지도 학습 모델의 성능을 향상시키지만, 계산량이 지수적으로 증가
  • 드롭아웃에서 영감을 받아, off-policy RL을 위한 random ensemble mixture(REM)를 제안함

(2) REM의 핵심

  • REM은 여러 매개변수화된 Q 함수를 사용하며 Q 값을 추정하며, 이는 ensemble DQN과 유사함
  • REM의 핵심은 여러 Q 값 추정치의 convex combination을 하나의 Q 값 추정치로 생각할 수 있다는 것임
  • 이는 특히 fixed point에서 매우 사실이며, 여기에서 모든 Q 값 추정치가 동일한 Q 함수로 수렴하게 됨 (?)
  • 이러한 통찰을 사용하여, 본 연구는 (K-1) simplex에서 혼합 확률로 정의된 Q 함수 근사자를 학습시킴

(3) REM의 학습 방법

  • REM은 아래의 Loss 값을 최소화하는 방향으로 학습됨

REM의 loss function (출처 : 본문)

  • categorical distribution $\alpha$ : 최적의 Q-함수를 근사하기 위해 K개의 추정치의 convex 조합을 정의
  • $P_{\Delta}$ : 표준 (K-1) SIMPLEX 위의 확률 분포 $\Delta^{k-1} = \left \{ \alpha \in \mathbb{R}^{K} : \alpha_{1}+\alpha_{2}+\cdots +\alpha_{K}=1,\alpha_{K}\geq 0, k=1, \cdots , K \right \}$
    • $P_{\Delta}$를 구현하는 방법은 아래에서 설명됨

(4) REM의 구현 방법

  • REM은 Q-Learning을 벨만 최적성 제약 조건 (2절의 수식 2)에 기반한 제약 만족 문제로 간주함
  • 위 수식 7의 $L(\theta)$는 서로 다른 혼합 확률 본포에 해당하는 무한한 제약 조건 집합으로 볼 수 있음
  • 행동을 선택하기 위해, 본 연구는 Q-function으로써 K value 추정치의 평균을 사용

K value 추정치의 평균 수식 (출처 : 본문)

  • REM은 구현하고 분석하기 쉬움
  • REM은 value-based RL을 위한 간단한 정규화 기법으로 볼 수 있음
  • 본 실험에서 매우 간단한 $P_{\Delta}$ 분포를 사용함 : 먼저 K개의 값들을 독립 동일 분포(i.i.d.)로 균일 분포(uniform (0,1))에서 추출한 후, 이들을 정규화하여 유효한 categorical distribution를 얻음

P 분포 구현 방법


본 연구에서 사용한 오프라인 RL 모델의 비교 (출처 : 본문)


5. Offline RL on Atari 2600 Games

(1) DQN Replay Dataset의 개요

  • 60개의 아타리 2600 게임에서 DQN 에이전트들을 각각 2억 프레임씩 학습하여 Replay Dataset을 제작함
    • frame skip은 4로 설정 & sticky action을 적용 (25% 확률로 에이전트의 이전 행동이 현재 행동 대신 실행됨)
    • 각 게임에서 random initialization을 한 5개의 다른 에이전트들을 학습하고, 학습 중에 경험한 모든 데이터(s,a,r,s')를 게임 당 5개의 replay dataset에 저장하여 총 300개의 데이터셋이 생성됨 (60개의 게임 * 5개의 replay dataset = 300개의 replay dataset)
  • 각 게임의 replay dataset은 대략 ImageNet 데이터셋의 양보다 3.5배 더 많으며, 온라인 DQN 에이전트가 학습하는 동안 나타난 모든 정책에서의 샘플들을 포함함
  • 그림 A.4는 데이터 수집에 사용된 개별 에이전트들의 학습 곡선과 학습 중에 찾은 최고 정책의 성능을 보여줌

그림 A.4의 일부. 검은색 점선은 online DQN의 best policy의 성능을 보여줌 (출처 : 원문)

(2) Experiment Setup

  • DQN replay dataset은 환경과의 상호작용 없이 오프라인에서 에이전트를 학습하기 위해 사용됨
  • 표준화된 비교를 위해 Dopamine 베이스라인에서 제공하는 하이퍼파라미터를 사용함 (부록 A.4 참고)
  • 정규화된 스케일을 사용하여 게임 점수를 기록함 (부록 A.3 참고)
  • DQN replay dataset은 학습이 진행됨에 따라 개선되는 DQN 에이전트에 의해 수집된 데이터를 포함하지만, 본 연구는 오프라인 에이전트의 성능을 온라인 DQN의 학습 후에 얻은 최고 성능과 비교
  • 오프라인 에이전트의 평가는 1백만 학습 frame 간격으로 제한된 횟수만큼 온라인으로 수행
  • 각 게임마다 online return을 사용하여 학습된 5개의 오프라인 에이전트(데이터셋 당 1개씩)를 평가하고, 5개 에이전트의 평균 최고 성능을 보고

본 실험에 사용한 하이퍼 파라미터 (출처 : 본문)
Score Normalization (출처 : 본문)


5.1 Can standard off-policy RL algorithms with no environment interactions succeed?

(1) 연구 질문 : 오프라인 RL은 학습이 성공적으로 이루어질 수 있을까?

  • 연구 소 질문 1 : DQN replay dataset만을 사용하여 학습된 offline DQN이 얼마나 잘 수행될 수 있을까?
  • 연구 소 질문 2 : 최신 off-policy 알고리즘이 offline DQN보다 DQN replay dataset을 더 효과적으로 활용할 수 있을까?
  • 위와 같은 질문들을 조사하기 위해, DQN(nature)과 QR-DQN 에이전트를 오프라인 환경에서 DQN replay dataset에 대해 온라인 DQN과 동일한 수의 gradient update로 학습

그림 4. (a) : offline DQN vs online DQN의 성능 비교. (b) : offline QR-DQN vs online DQN의 성능 비교 (출처 : 본문) 파란색 점선 중에서 DQN은 online DQN의 성능, Random은 random한 action을 수행하는 random agent의 성능을 의미.
그림 3. DQN replay dataset으로 학습된 offline DQN, offline C51의 성능 비교. 검은색 실선은 online DQN의 최고 성능, 검은색 점선은 DQN Replay Dataset을 수집한 평균 behavior policy의 성능을 의미함. (출처 : 본문)

(2) 결과 분석 : online DQN vs offline DQN

  • 위 그림 4-(a)를 보면 몇몇 게임을 제외하고는 대부분의 게임에서 offline DQN이 완전히 학습된 online DQN보다 성능이 떨어지는 것을 보임
  • 반면, 그림 4-(b)를 보면 대부분의 게임에서 offline QR-DQN이 offline DQN과 online DQN보다 나은 성능을 보임
  • 그림 3을 보면 offline C-51이 offline DQN보다 나은 성능을 보이고 있음
  • 이러한 결과들은 standard deep RL 알고리즘을 DQN replay dataset을 사용하여 오프라인으로 최적화할 수 있음을 보여줌
  • 또한 offline QR-DQN/C51과 offline DQN의 성능 차이오프라인 데이터를 활용하는 능력의 차이를 나타냄

5.2 Asymptotic performance of offline RL agents

(1) 실험 개요

  • 지도 학습에서는 고정된 gradient update 횟수 내의 성능보다 점진적인 성능 향상이 더 중요함
  • 마찬가지로, 주어진 replay dataset에 대해, gradient update 수가 실행 가능한 한 최고의 성능을 내는 RL 알고리즘을 선호
  • 오프라인 데이터셋의 샘플 효율성이 고정되어 있기 때문에, offline agent를 DQN보다 5배 많은 gradient update로 학습을 진행할 것임

(2) Comparison with QR-DQN & Additional Baselines

  • online QR-DQN과 공정한 비교를 위해 다음과 같이 셋팅을 설정함
    • Adam 최적화 알고리즘 사용 (5.1절의 실험은 RMS Prop 최적화 알고리즘 사용)
    • K = 200
  • online DQN 또한 Adam 최적화 알고리즘을 사용하여 실험 진행
  • Anschel et al. (2017)에 의해 제안된 Ensemble-DQN의 변형인 Averaged Ensemble-DQN에 대한 성능도 평가함.
    • 이는 예측된 target Q-value의 평균을 벨만 목표로 사용함
    • 이 베이스라인은 Ageraged Ensemble DQN의 앙상블 조합이 REM의 random 조합보다 학습 안정화가 좋은지/나쁜지를 확인할 수 있음

(3) Results

  • 아래의 표 1을 보면 offline Ensemble DQN 성능은 offline DQN (Adam)의 성능을 개선하지 못하며, 이는 단순한 앙상블 접근법이 불충분함을 보여줌
  • 또한 offline Average Ensemble-DQN은 offline Ensemble DQN보다 약간 더 나은 성능을 보임
  • 반면에, 더 많은 gradient update로 학습될 때 REM은 QR-DQN을 포함한 다른 에이전트보다 오프라인 데이터를 더 효과적으로 활용할 수 있음을 보여줌

그림 1. 학습 횟수에 따른 offline RL과 online RL의 성능 비교. (a) : 게임 점수로 성능 비교. (b) : 60개의 아타리 게임 중에서 online DQN보다 성능이 좋은 게임 개수 (출처 : 본문)
표 1. 60개의 아타리 게임에 대한 오프라인 강화학습 RL 모델들의 Meedian Normalized 점수와 online DQN보다 성능이 높은 게임 개수 (출처 : 본문)

(4) Hypothesis about effectiveness of REM

  • REM이 Average Ensemble DQN에 비해 얻는 이득은 무작위로 앙상블된 Q 값 추정치로 인한 노이즈가 더 견고한 학습을 가능하게 하기 때문인것으로 추정됨
  • 이는 드롭아웃과 유사함.

5.3 Does REM work in the online setting?

(1) 실험 개요

  • 실험 질문 : REM은 온라인 설정에서도 잘 작동될까?
  • 온라인 RL에서는 정책의 학습과 데이터 수집이 긴밀하게 연결되어 있으며, 더 빠르게 학습하는 에이전트는 더 관련성 높은 데이터를 수집
  • 더 나은 수렴 속도 때문에 4개의 별도 Q 네트워크를 사용하는 online REM을 실행함 (오프라인 설정에서 multi-head REM을 사용하는 것 대신에!)
  • 데이터 수집을 위해, 각 에피소드마다 무작위로 샘플링된 Q 추정치를 사용하는 epislon-geeedy를 사용하며, 이는 Bootstrapped DQN과 유사함
  • 아타리에서 표준 online RL 프로토콜을 따르고, 1M 프레임의 고정된 replay buffer를 사용함

(2) 결과 분석

  • online 환경에서 REM이 Bootstrapped DQN보다 나은 성능을 보이고 있음
  • REM과 QR-DQN의 성능은 비슷함
  • 이는 우리가 오프라인 설정에서 얻은 통찰력을 적절한 설계 선택(예: 탐험, replay buffer)과 함께 사용하여 효과적인 온라인 방법을 만들 수 있음을 보여줌

그림 5. Online 환경에서 REM과 다른 베이스 라인 모델들 간의 성능 비교 (출처 : 본문)


6. Important Factors in Offline RL

(1-1) Dataset Size에 따른 성능 비교

  • 본 연구의 오프라인 학습 결과는 DQN에서 게임 당 5천만 개의 튜플이 대부분의 아타리 2600 게임에서 좋은 온라인 성능을 얻는 데 충분함을 보여줌
  • 이에 따라 DQN replay dataset의 크기와 그 다양성이 오프라인에서 학습된 표준 off-policy RL 알고리즘의 성공에 중요한 역할을 한다고 가설을 세움
  • 이를 위해 DQN replay dataset에서 1%, 10%, 20%, 50%, 100%만큼 랜덤 샘플링해서 학습을 진행한 offline QR-DQN과 REM의 성능을 비교 분석 함
  • 실험 결과는 예상대로 데이터의 크기가 증가함에 따라 성능이 향상되는 것을 볼 수 있음
  • DQN replay dataset에서 10% 이상 샘플링 했을 때, REM과 QR-DQN은 대부분의 게임들에서 online DQN과 비슷한 성능을 내는 것을 볼 수 있음
  • 그러나 1%만을 샘플링 했을때는 성능이 급격하게 악화

그림 6. 오프라인 데이터셋 크기에 따른 성능 비교. (출처 : 본문)

(1-2) Dataset Diversity에 따른 성능 비교

  • 오프라인 데이터셋의 품질에 따른 성능을 확인하기 위해, DQN replay dataset의 첫 2천만 프레임에서 오프라인 에이전트는 학습하는 실험을 수행함
  • 이 데이터셋은 sub-optimal return을 가진 탐험 데이터를 대략적으로 모방하는 낮은 퀄리티의 데이터셋
  • 전체 데이터셋을 사용한 오프라인 결과와 유사하게, 대부분의 아타리 게임에서, offlien REM과 QR-DQN이 online DQN의 성능을 능가하는 것을 볼 수 있음
  • 이는 standard RL 에이전트가 충분히 다양한 오프라인 데이터셋으로도 잘 작동하는 것을 보여줌

그림 7. 낮은 Dataset 퀄리티에서의 학습 성능 비교. 검은색 점선은 해당 dataset에서 최고 성능을 보인 online DQN의 성능을 나타냄. (출처 : 본문)

(2) Offline Continous Control에서도 잘 작동 될까?

  • DDPG 에이전트를 1백만 타임 스텝동안 학습하고 경험한 모든 transitions(s,a,r,s')를 저장
  • 이 데이터셋을 사용하여, TD3, DDPG, BCQ 에이전트를 완전히 오프라인으로 학습을 진행함
  • offline TD3와 offline BCQ는 online DDPG의 성능을 능가하는 것을 볼 수 있음

그림 8. offline continuous control 실험에서의 성능 비교. 검은색 점선은 online DDPG의 최고 성능을 나타냄 (출처 : 본문)


8. Future Work

(1) DQN Replay Dataset의 다양한 응용

  • DQN Replay Dataset의 초반 데이터는 최적이 아닌 탐험 데이터에 가깝고, 후반 데이터는 최적 데이터에 가까움. 이러한 경향을 사용하여 다양한 실험을 적용 가능
  • 또한 6절의 실험과 유사하게 DQN Replay Dataset의 일부를 무작위로 샘플링하여 실험 적용 가능

(2) REM을 continous control task에 응용

  • REM은 무작위화된 Q 앙상블을 단순하게 사용하기 때문에, 기존의 Q-learning 방법들을 포함한 distributional RL과 REM을 결합하는 것이 다양함
  • 이는 REM을 actor-critic 방법론에서 가치 기준 추정을 개선하는 데 사용될 수 있음을 의미함
  • BCQ와 같은 행동 규제 방법들과 결합하여 더 나은 오프라인 RL 알고리즘을 만들 수도 있음

(3) Overfitting 진단 방법 

  • 현재는 오프라인 학습 중에 온라인 평가를 진행하여 오프라인 RL 에이전트가 과적합/과소적합 되었는지를 판단하고 있음
  • 하지만 진정한 offline RL은 오프라인 정책 평가만으로도 과적합/과소적합을 평가할 수 있어야함
  • 또한 오프라인 RL의 샘플 효율성을 향상시키는 연구도 필요함

9. Conclusion

(1) 논문 내용 요약

  • 본 연구는 DQN 에이전트의 기록된 경험을 바탕으로 아타리 2600 게임에서의 오프라인 강화학습을 연구함
  • 본 연구의 실험 결과는 표준 RL 방법들이 DQN replay dataset에서 아타리 게임을 플레이 하는 방법을 배울 수 있으며, 이는 데이터셋(online DQN)의 최고 성능보다 낫다는 것을 보여줌
  • DQN replay dataset은 오프라인 RL을 위한 벤치마크로 사용될 수 있음
  • 이 결과들은 대규모 오프라인 데이터셋에서 효과적으로 학습할 수 있는 강력한 RL 알고리즘들이 개발될 수 있다는 긍정적인 관점을 제시함
  • REM은 오프라인 설정에서 간단한 앙상블 방법들조차 효과적일 수 있다는 것을 보여줌

(2) 오프라인 RL의 잠재력 : Offline RL with online tuning의 가능성

  • 전반적으로, 이 논문은 오프라인 RL의 잠재력을 보여줌.
  • 이는 data-driven RL 패러다임을 창출하는데 있어, 기존의 다양한 대규모 데이터셋으로 RL 에이전트를 사전학습 할 수 있음
  • 이렇게 함으로써 샘플 효율성이 높은 에이전트를 만들 수 있으며, 이들은 실제 세계에 배치되어 지속적으로 학습할 수 있음

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31