티스토리 뷰


요약

  • clip video의 사용
    • 현실적으로 agent의 1개의 episode는 길다.
    • 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임.
    • 따라서 1~2초 길이의 clip video를 통한 학습 제시
  • 비전문가로 구성된 인간 집단
    • 전문가의 데이터를 취득하기란 쉽지 않음.
    • 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득
    • 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정.
  • 2가지의 비교군
    • 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬
    • 또한 시간과 비용이 많이 들어 비효율임.
    • 따라서 2가지의 데이터를 제시하여 비교하게 함.
  • 본 논문의 특징
    • 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 방법을 제시.
    • 비전문가의 평가로 이루어진 선호도 데이터를 통해 학습 성과를 보여줌

1. Abstract

(1-1) 정교한 Reinforcement Learning(RL) system

  • 정교한 RL system이 실제 환경과 유용하게 상호 작용하려면 본 시스템의 복잡한 목표(goal)를 전달할 수 있어야 함.
  • 본 논문은 state, action 쌍으로 구성된 trajectory(또는 agent의 history)에 대한 (비전문가) 인간의 선호도를 구성, 선호도로 정의된 목표를 탐구함.

(1-2) 정교하지만 적게 feedback 하는 방법 제시

  • 환경과 agent가 서로 상호 작용하는 횟수의 1% 미만의 feedback data로 복잡한 RL의 목표를 효과적으로 해결할 수 있는 방법 제시
  • Atari games도 있고 robot의 운동 (mujoco) 도 포함.

2. Introduction

(2-1) RL의 단점

  • RL이 적극적으로 또는 좋은 성과를 보여준 분야는 reward function이 구체적으로 그리고 명확하게 제시되었기 때문.
  • 하지만 실제 많은 분야에서의 목표는 복잡하거나, 구체화하기 어려움.
  • 이러한 단점을 극복하는 것은 Deep Reinforcement Learning (DRL)의 사용 가능한 분야를 확대 시킬 수 있음.

(2-2) 책상 정리 로봇 예시

  • 책상 정리 로봇을 RL로 학습시킨 후 사용하고자 하는 상황.
  • 로봇의 센서를 기반으로 하는 적절한 reward function을 설계하는 것은 명확하지 않음.
    • 물론 의도된 행동을 유도하기 위해서 아주 간단한 reward function을 설계할 수 있음.
    • 하지만 이는 “우리의 의도를 완전히 충족시키지 못함”.
  • 따라서 인간의 의도 또는 선호를 충족시키도록 하는 reward function을 agent에게 전달할 수 있다면, 인간의 선호와 RL의 목표의 불일치에 대응하는 중요 연구임.

(2-3) 인간의 의도 또는 선호를 충족 시키는 방법 1.

  • 물론 전달 방법이 완전히 없는 것은 아님
    • Inverse Reinforcement Learning (IRL)
      • IRL과 같이 인간의 행동 예시를 보여줘서 인간의 행동에서 reward function을 추출할 수 있음.
        • 이렇게 추출된 reward function을 그대로 RL agent에게 사용할 수 있음.
    • Imitation Learning (IL)
      • IL은 인간의 행동 예시에서 행동을 모방함으로서 인간의 의도 또는 선호를 충족시키는데 있어 더 직접적인 방법임.
  • 하지만 IRL과 IL 모두 인간이 입증하기 어려운 행동에는 직접적으로 적용할 수 없음.
    • e.g. 자유도는 높지만 인간과 매우 다른 형태를 지닌 로봇 제어

(2-4) 인간의 의도 또는 선호를 충족 시키는 방법 2.

  • (2-3)절 과는 다른 접근 방법이 있음.
  • 사람을 직접적으로 RL system에 접근하게 함으로써 agent의 행동에 feedback을 주는 방법.
    • 이러한 feedback은 해당 분야의 목표를 정의하는데 사용.
  • 그러나 이와 같은 방법은 학습이 많이 요구되는 RL system의 경우 feedback 방법은 비효율적임.
  • 따라서 실용적인 RL agent의 학습을 위해서 feedback의 양을 줄일 필요가 있음

(2-5) 논문에서 제시하는 조건

  • 인간이 원하는 행동을 인식할 수만 있고 반드시 시연할 수 없는 작업을 해결할 수 있어야 함.
  • 비전문가가 agent를 가르칠 수 있어 함.
  • 큰 규모의 문제에 대응할 수 있어야 함.
  • 사용자 피드백을 효율적으로 활용해야 함.

(2-6) Feedback을 주는 방법

  • feedback을 학습하는 reward model을 학습함과 동시에 해당 model를 통해 policy를 학습함. (단, 비동기)

  • 두 개의 비디오 클립을 비교하여 feedback을 부여
    • 절대적인 숫자 점수가 아님. 단순히 선호 비디오 선택
    • 이를 통해서 임의 분야에서 인간이 쉽게 선택 가능

(2-7) Related Work

  • 다양한 선행 연구 분야
    • 인간의 평가나 순위를 통한 RL 연구
    • 절대적인 보상 값이 아닌 선호도를 통한 연구
    • 인간의 선호도를 최적화하는 데 중점을 둔 연구
  • 선행 연구와 본 연구의 차이점
    • 본 연구는 인간의 평가나 순위를 통한 RL 연구
    • 기존 방법은 자유도가 간단하고 행동이 이산적인 RL system
    • 행동이 연속인 것을 고려하더라도 reward model이 선형적이라 가정
    • 본 논문은 자유도가 복잡하고 행동 공간이 연속적이며 reward model이 비선형인 방법
    • 또한 기존 연구는 video 전체에 대해서 실시하지만 본 논문은 클립을 이용하여 더 많은 데이터를 얻고 데이터 추출에 필요한 인원을 줄임.
  • 본 연구와 유사한 선행 연구
    • reward function이 알려지지 않은 “target” policy와 많이 다르다는 가정을 한 연구.
      • 단, 해당 연구의 target policy는 hand-coded features로 구성된 linear function 또한 reward function을 Bayesian inference를 통해 만들었음.
      • 본 논문은 비전문가 집단으로부터 수집한 피드백을 사용함
  • 본 연구의 기여점
    • DRL에 human feedback을 사용하여 agent의 복잡한 행동에 대한 학습

Preliminaries and Method

(3-1) Setting and Goal

  • Denote
    • observation: $o_t \in O$
      • agent가 각 time step $t$ 마다 observation $o_t \in O$를 환경으로부터 습득
    • action: $a_t \in A$
      • agent가 환경을 통해 얻은 $o_t$ 를 통해 실시한 $a_t$
    • reward: $r_t \in R$
      • 기존의 RL의 경우 환경이 reward signal을 agent에게 제공
      • 본 논문에서는 human feedback를 통해서 제공한다 가정
    • trajectory segments: $\sigma = ((o_0,a_0),(o_1,a_1),..(o_{k-1},a_{k-1})) \in (O \times A)^k$
      • agent의 observation와 action 쌍을 순서대로 묶은 history
      • 여기서 $\sigma^1 > \sigma^2$ 는 사람이 $\sigma^1$를 선호 한다는 것을 의미.
      • agent는 $\sigma^1$를 만드는 것을 목표로 함.
  • 본 알고리즘에 대한 행동을 평가하는 두 가지 방법
    • Quantitative
      • 선호 $>$는 reward function r: $O \times A → R$ 을 통해서 만들어진다고 가정
      • 만약 $(O \times A)^1 > (O \times A)^2$ 이라면, $\sum r(o_t^1,a_t^1) > \sum r(o_t^2,a_t^2)$
      • 만약 사람의 선호도가 reward function r에 의해서 생성된다면, agent는 r에 따라 높은 return을 받아야 함
      • 따라서 reward function r를 알고 있으면, agent를 Quantitative (양)으로 평가 가능
    • Qualitative
      • 때때로 Quantitative (양)으로 평가 가능하도록 하는 reward function r가 없음.
      • 이런 경우, Qualitative (질)로 평가할 수 밖에 없음.
      • agent의 action이 해당 목표를 얼마나 잘 달성하는지에 기반하여 평가
    • 해당 방법은 선행 연구와 유사하지만 다른점이 있음.
      • 선행 연구는 고정된 state로 reset이 가능하지만, 본 논문은 그렇지 않음.
      • 그렇기에 다른 state에서 시작하는 trajectory segments를 얻을 수 있음.

(3-2) Our Method

  • 각 점에서 policy $\pi : O →A$ 를 유지하고, Deep neural Network의 parameter를 통해 reward function $\hat r$ : $O \times A → R$ 를 추정함.
    • 고정된 Policy를 통해서 Trajectory를 생성하고 해당 Trajectory에 feedback을 부여, 이를 통해 reward function을 추정함.
  • 아래의 3가지 과정을 통해 networks는 업데이트 됨.
    • policy $\pi$ 를 통해 agent는 환경과 상호작용하여 trajectory 집합 [ $\tau^1,\tau^2, … , \tau^i$] 를 생성
    • trajectory 집합으로부터 segments ($\sigma^1, \sigma^2$)을 선택하고 인간에게 feedback을 받음.
    • feedback을 target으로 supervised learning(지도 학습)을 실시. 즉, $\hat r$의 parameter를 feedback에 매핑(추정)
  • 위 과정들은 전부 **비동기(asynchronously)**임.

(3-3) Optimizing the Policy

  • $\hat r$ 를 통해 reward를 계산한 후에, DRL의 기존 문제를 해결해야 함.
    • $\hat r$ 이 non-stationary(시간에 따라 변화)일 수 있으며, 이는 reward function의 변화에 대해 견고한 방법을 고려해야 함을 의미.
    • 따라서 본 논문은 policy gradient 에 중점을 두었음.
      • atrari game: Advantage Actor-Critic (A2C)를 사용
      • robotics tasks: Trust Region Policy Optimization (TRPO) 사용
      • 위에 해당하는 A2C와 TRPO 모두 기존 parameter를 사용. 단, TRPO의 entropy bonus 만 조정
  • reward $\hat r$에 의해 생성된 reward를 정규화하여 평균이 0 이고 표준편차가 일정하도록 함.
    • 이는 학습에서 reward의 위치가 결정되지 않기 때문에(Non-stationary)특히 적절한 전처리 단계

(3-4) Preference Elicitation

  • 사람으로 구성된 평가자에게 2가지의 trajectory segments ($\sigma^k,\sigma^{k-1}$)을 제공.
    • 이때 full trajectory, 즉 episode가 시작부터 끝까지로 구성된 영상(video)이 아닌, 1~2초짜리 clip video를 제공.
  • 해당 쌍 중에 선호되는 것을 사람이 선택, 두 가지의 trajectory segments가 동등하게 좋다고 생각하는지 또는 비교할 수 없다고 생각하는지 표기
  • 이러한 사람의 판단을 data based $D (\sigma^1,\sigma^2,\mu)$ 로 저장.
    • $\mu$ : {1,2} 로 구성된 분포로 사람의 선호를 나타냄.
    • 만약 둘 중 하나의 segment를 선호 한다면, $\mu$ 는 모든 질량(가중치)를 해당 segment에 부여.
    • 만약 둘 다 선호하는 경우 또는 동등하다고 판단하는 경우, $\mu$ 는 uniform(균등) 분포
    • 마지막으로 둘 다 판단이 불가능하다고 하는 경우, 해당 data는 D 집합에 포함하지 않음.

(3-5) Fitting the Reward Function

  • 만약 $\hat r$ 를 인간의 판단을 설명할 수 있는 latent factor로 바라본다면, reward function estimate $\hat r$ 를 선호 예측자(preference- predictor)로 가정할 수 있음.
    • 이때, 인간이 $\sigma^i$를 선호하는 확률은 reward 값이 clip video의 길이에 걸쳐 지수적으로 의존한다고 가정
      • $\hat P[\sigma^1>\sigma^2] = \frac{\exp \sum \hat r (o_t^1,a_t^1)} {\exp \sum \hat r (o_t^1,a_t^1) + \exp \sum \hat r (o_t^2,a_t^2)}$ 
      • 지수적인 수식을 통해서 상대적인 선호도를 normalize 가능하게 함.
      • 또한 선호도를 확률로 표현이 가능하게 함.
  • 위 수식과 같은 predictions와 사람의 feedback 사이의 Cross-Entropy loss가 최소로 되게 하는 $\hat r$을 선택
    • $L(\hat r) = -\sum \mu (1) \log \hat P[\sigma^1>\sigma^2] + \mu (2) \log P[\sigma^2>\sigma^1]$
    • 두 trajectory segments의 예측된 reward 차이는 한 trajectory가 다른 것을 선택할 확률을 추정하는 것을 의미.
  • 앙상블의 사용
    • 앙상블(ensemble)이란?
      • 여러 개의 기본 모델을 활용하여 하나의 새로운 모델을 만들어내는 개념
      • 대게 overfitting을 막기 위해서 사용
      • 종류로는 Voting, Bagging, Boosting이 있음.
        • Voting: 다수의 estimator가 결정한 예측값을 최종 값으로 사용. 또는 평균 중 가장 높은 확률을 선택
        • Bagging: sample를 여러번 뽑아 각 모델에 학습시켜 결과물을 집계
        • Boosting: 오분류된 데이터에 초점을 맞추어 더 많은 가중치를 부여
    • $\hat r$은 각 모델을 독립적으로 정규화한 다음 결과를 평균화하여 정의
      • $\frac {1}{e}$ 의 데이터 비율은 validation set으로 사용할 목적
      • $l_2$ 정규화를 사용하여 validation loss를 training loss에서 1.1배에서 1.5배 사이로 유지
      • 인간의 평가가 오류를 만들어낼 확률이 일정하고 reward 차이가 극단이 될수록 0으로 감소하지 않기 때문에 $\hat P$에서 softmax를 직접적으로 사용하지 않는 대신에 인간이 무작위로 균일하게 응답할 확률이 10%라고 가정

(3-4) Selecting Queries

  • reward function estimator의 불확실성에 대한 근사치를 기반으로 선호를 query하는 방법을 결정
    • 길이 K개의 여러 trajectory segments 쌍을 sampling 함.
    • 앙상블의 각 reward estimator를 사용하여 어떤 segments가 선호될지 예측
    • 앙상블 간 예측의 분산이 가장 높은 궤적을 선택
  • 해당 방법은 대략적인 근사치이며, 해당 방법은 때때로 성능 저하를 일으킴.
  • 대략적인 근사치가 아닌 구체적인 방법론은 future work로 남김
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31