티스토리 뷰

딩딩기/RLHF

[RLHF] Deep Reinforcement Learning from Human Preferences

딩딩기 2024. 1. 15. 18:17

요약

clip video의 사용
- 현실적으로 agent의 1개의 episode는 길다.
- 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임.
- 따라서 1~2초 길이의 clip video를 통한 학습 제시
비전문가로 구성된 인간 집단
- 전문가의 데이터를 취득하기란 쉽지 않음.
- 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득
- 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정.
2가지의 비교군
- 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬
- 또한 시간과 비용이 많이 들어 비효율임.
- 따라서 2가지의 데이터를 제시하여 비교하게 함.
본 논문의 특징
- 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 방법을 제시.
- 비전문가의 평가로 이루어진 선호도 데이터를 통해 학습 성과를 보여줌

1. Abstract

(1-1) 정교한 Reinforcement Learning(RL) system

정교한 RL system이 실제 환경과 유용하게 상호 작용하려면 본 시스템의 복잡한 목표(goal)를 전달할 수 있어야 함.
본 논문은 state, action 쌍으로 구성된 trajectory(또는 agent의 history)에 대한 (비전문가) 인간의 선호도를 구성, 선호도로 정의된 목표를 탐구함.

(1-2) 정교하지만 적게 feedback 하는 방법 제시

환경과 agent가 서로 상호 작용하는 횟수의 1% 미만의 feedback data로 복잡한 RL의 목표를 효과적으로 해결할 수 있는 방법 제시
Atari games도 있고 robot의 운동 (mujoco) 도 포함.

2. Introduction

(2-1) RL의 단점

RL이 적극적으로 또는 좋은 성과를 보여준 분야는 reward function이 구체적으로 그리고 명확하게 제시되었기 때문.
하지만 실제 많은 분야에서의 목표는 복잡하거나, 구체화하기 어려움.
이러한 단점을 극복하는 것은 Deep Reinforcement Learning (DRL)의 사용 가능한 분야를 확대 시킬 수 있음.

(2-2) 책상 정리 로봇 예시

책상 정리 로봇을 RL로 학습시킨 후 사용하고자 하는 상황.
로봇의 센서를 기반으로 하는 적절한 reward function을 설계하는 것은 명확하지 않음.
- 물론 의도된 행동을 유도하기 위해서 아주 간단한 reward function을 설계할 수 있음.
- 하지만 이는 “우리의 의도를 완전히 충족시키지 못함”.
따라서 인간의 의도 또는 선호를 충족시키도록 하는 reward function을 agent에게 전달할 수 있다면, 인간의 선호와 RL의 목표의 불일치에 대응하는 중요 연구임.

(2-3) 인간의 의도 또는 선호를 충족 시키는 방법 1.

물론 전달 방법이 완전히 없는 것은 아님
- Inverse Reinforcement Learning (IRL)
  - IRL과 같이 인간의 행동 예시를 보여줘서 인간의 행동에서 reward function을 추출할 수 있음.
    - 이렇게 추출된 reward function을 그대로 RL agent에게 사용할 수 있음.
- Imitation Learning (IL)
  - IL은 인간의 행동 예시에서 행동을 모방함으로서 인간의 의도 또는 선호를 충족시키는데 있어 더 직접적인 방법임.
하지만 IRL과 IL 모두 인간이 입증하기 어려운 행동에는 직접적으로 적용할 수 없음.
- e.g. 자유도는 높지만 인간과 매우 다른 형태를 지닌 로봇 제어

(2-4) 인간의 의도 또는 선호를 충족 시키는 방법 2.

(2-3)절 과는 다른 접근 방법이 있음.
사람을 직접적으로 RL system에 접근하게 함으로써 agent의 행동에 feedback을 주는 방법.
- 이러한 feedback은 해당 분야의 목표를 정의하는데 사용.
그러나 이와 같은 방법은 학습이 많이 요구되는 RL system의 경우 feedback 방법은 비효율적임.
따라서 실용적인 RL agent의 학습을 위해서 feedback의 양을 줄일 필요가 있음

(2-5) 논문에서 제시하는 조건

인간이 원하는 행동을 인식할 수만 있고 반드시 시연할 수 없는 작업을 해결할 수 있어야 함.
비전문가가 agent를 가르칠 수 있어 함.
큰 규모의 문제에 대응할 수 있어야 함.
사용자 피드백을 효율적으로 활용해야 함.

(2-6) Feedback을 주는 방법

feedback을 학습하는 reward model을 학습함과 동시에 해당 model를 통해 policy를 학습함. (단, 비동기)

두 개의 비디오 클립을 비교하여 feedback을 부여
- 절대적인 숫자 점수가 아님. 단순히 선호 비디오 선택
- 이를 통해서 임의 분야에서 인간이 쉽게 선택 가능

(2-7) Related Work

다양한 선행 연구 분야
- 인간의 평가나 순위를 통한 RL 연구
- 절대적인 보상 값이 아닌 선호도를 통한 연구
- 인간의 선호도를 최적화하는 데 중점을 둔 연구
선행 연구와 본 연구의 차이점
- 본 연구는 인간의 평가나 순위를 통한 RL 연구
- 기존 방법은 자유도가 간단하고 행동이 이산적인 RL system
- 행동이 연속인 것을 고려하더라도 reward model이 선형적이라 가정
- 본 논문은 자유도가 복잡하고 행동 공간이 연속적이며 reward model이 비선형인 방법
- 또한 기존 연구는 video 전체에 대해서 실시하지만 본 논문은 클립을 이용하여 더 많은 데이터를 얻고 데이터 추출에 필요한 인원을 줄임.
본 연구와 유사한 선행 연구
- reward function이 알려지지 않은 “target” policy와 많이 다르다는 가정을 한 연구.
  - 단, 해당 연구의 target policy는 hand-coded features로 구성된 linear function 또한 reward function을 Bayesian inference를 통해 만들었음.
  - 본 논문은 비전문가 집단으로부터 수집한 피드백을 사용함
본 연구의 기여점
- DRL에 human feedback을 사용하여 agent의 복잡한 행동에 대한 학습

Preliminaries and Method

(3-1) Setting and Goal

Denote
- observation: ot∈O
  - agent가 각 time step $t$ 마다 observation $o_t \in O$ 를 환경으로부터 습득
- action: at∈A
  - agent가 환경을 통해 얻은 $o_t$ 를 통해 실시한 $a_t$
- reward: rt∈R
  - 기존의 RL의 경우 환경이 reward signal을 agent에게 제공
  - 본 논문에서는 human feedback를 통해서 제공한다 가정
- trajectory segments: σ=((o0,a0),(o1,a1),..(ok−1,ak−1))∈(O×A)k
  - agent의 observation와 action 쌍을 순서대로 묶은 history
  - 여기서 $\sigma^1 > \sigma^2$ 는 사람이 $\sigma^1$ 를 선호 한다는 것을 의미.
  - agent는 $\sigma^1$ 를 만드는 것을 목표로 함.
본 알고리즘에 대한 행동을 평가하는 두 가지 방법
- Quantitative
  - 선호 $>$ 는 reward function r: $O \times A → R$ 을 통해서 만들어진다고 가정
  - 만약 $(O \times A)^1 > (O \times A)^2$ 이라면, $\sum r(o_t^1,a_t^1) > \sum r(o_t^2,a_t^2)$
  - 만약 사람의 선호도가 reward function r에 의해서 생성된다면, agent는 r에 따라 높은 return을 받아야 함
  - 따라서 reward function r를 알고 있으면, agent를 Quantitative (양)으로 평가 가능
- Qualitative
  - 때때로 Quantitative (양)으로 평가 가능하도록 하는 reward function r가 없음.
  - 이런 경우, Qualitative (질)로 평가할 수 밖에 없음.
  - agent의 action이 해당 목표를 얼마나 잘 달성하는지에 기반하여 평가
- 해당 방법은 선행 연구와 유사하지만 다른점이 있음.
  - 선행 연구는 고정된 state로 reset이 가능하지만, 본 논문은 그렇지 않음.
  - 그렇기에 다른 state에서 시작하는 trajectory segments를 얻을 수 있음.

(3-2) Our Method

각 점에서 policy π:O→A 를 유지하고, Deep neural Network의 parameter를 통해 reward function ˆr : O×A→R 를 추정함.
- 고정된 Policy를 통해서 Trajectory를 생성하고 해당 Trajectory에 feedback을 부여, 이를 통해 reward function을 추정함.
아래의 3가지 과정을 통해 networks는 업데이트 됨.
- policy $\pi$ 를 통해 agent는 환경과 상호작용하여 trajectory 집합 [ $\tau^1,\tau^2, … , \tau^i$ ] 를 생성
- trajectory 집합으로부터 segments ( $\sigma^1, \sigma^2$ )을 선택하고 인간에게 feedback을 받음.
- feedback을 target으로 supervised learning(지도 학습)을 실시. 즉, $\hat r$ 의 parameter를 feedback에 매핑(추정)
위 과정들은 전부 **비동기(asynchronously)**임.

(3-3) Optimizing the Policy

ˆr 를 통해 reward를 계산한 후에, DRL의 기존 문제를 해결해야 함.
- $\hat r$ 이 non-stationary(시간에 따라 변화)일 수 있으며, 이는 reward function의 변화에 대해 견고한 방법을 고려해야 함을 의미.
- 따라서 본 논문은 policy gradient 에 중점을 두었음.
  - atrari game: Advantage Actor-Critic (A2C)를 사용
  - robotics tasks: Trust Region Policy Optimization (TRPO) 사용
  - 위에 해당하는 A2C와 TRPO 모두 기존 parameter를 사용. 단, TRPO의 entropy bonus 만 조정
reward ˆr에 의해 생성된 reward를 정규화하여 평균이 0 이고 표준편차가 일정하도록 함.
- 이는 학습에서 reward의 위치가 결정되지 않기 때문에(Non-stationary)특히 적절한 전처리 단계

(3-4) Preference Elicitation

사람으로 구성된 평가자에게 2가지의 trajectory segments (σk,σk−1)을 제공.
- 이때 full trajectory, 즉 episode가 시작부터 끝까지로 구성된 영상(video)이 아닌, 1~2초짜리 clip video를 제공.
해당 쌍 중에 선호되는 것을 사람이 선택, 두 가지의 trajectory segments가 동등하게 좋다고 생각하는지 또는 비교할 수 없다고 생각하는지 표기
이러한 사람의 판단을 data based D(σ1,σ2,μ) 로 저장.
- $\mu$ : {1,2} 로 구성된 분포로 사람의 선호를 나타냄.
- 만약 둘 중 하나의 segment를 선호 한다면, $\mu$ 는 모든 질량(가중치)를 해당 segment에 부여.
- 만약 둘 다 선호하는 경우 또는 동등하다고 판단하는 경우, $\mu$ 는 uniform(균등) 분포
- 마지막으로 둘 다 판단이 불가능하다고 하는 경우, 해당 data는 D 집합에 포함하지 않음.

(3-5) Fitting the Reward Function

만약 ˆr 를 인간의 판단을 설명할 수 있는 latent factor로 바라본다면, reward function estimate ˆr 를 선호 예측자(preference- predictor)로 가정할 수 있음.
- 이때, 인간이 σi를 선호하는 확률은 reward 값이 clip video의 길이에 걸쳐 지수적으로 의존한다고 가정
  - $\hat P[\sigma^1>\sigma^2] = \frac{\exp \sum \hat r (o_t^1,a_t^1)} {\exp \sum \hat r (o_t^1,a_t^1) + \exp \sum \hat r (o_t^2,a_t^2)}$
  - 지수적인 수식을 통해서 상대적인 선호도를 normalize 가능하게 함.
  - 또한 선호도를 확률로 표현이 가능하게 함.
위 수식과 같은 predictions와 사람의 feedback 사이의 Cross-Entropy loss가 최소로 되게 하는 ˆr을 선택
- $L(\hat r) = -\sum \mu (1) \log \hat P[\sigma^1>\sigma^2] + \mu (2) \log P[\sigma^2>\sigma^1]$
- 두 trajectory segments의 예측된 reward 차이는 한 trajectory가 다른 것을 선택할 확률을 추정하는 것을 의미.
앙상블의 사용
- 앙상블(ensemble)이란?
  - 여러 개의 기본 모델을 활용하여 하나의 새로운 모델을 만들어내는 개념
  - 대게 overfitting을 막기 위해서 사용
  - 종류로는 Voting, Bagging, Boosting이 있음.
    - Voting: 다수의 estimator가 결정한 예측값을 최종 값으로 사용. 또는 평균 중 가장 높은 확률을 선택
    - Bagging: sample를 여러번 뽑아 각 모델에 학습시켜 결과물을 집계
    - Boosting: 오분류된 데이터에 초점을 맞추어 더 많은 가중치를 부여
- ˆr은 각 모델을 독립적으로 정규화한 다음 결과를 평균화하여 정의
  - $\frac {1}{e}$ 의 데이터 비율은 validation set으로 사용할 목적
  - $l_2$ 정규화를 사용하여 validation loss를 training loss에서 1.1배에서 1.5배 사이로 유지
  - 인간의 평가가 오류를 만들어낼 확률이 일정하고 reward 차이가 극단이 될수록 0으로 감소하지 않기 때문에 $\hat P$ 에서 softmax를 직접적으로 사용하지 않는 대신에 인간이 무작위로 균일하게 응답할 확률이 10%라고 가정

(3-4) Selecting Queries

reward function estimator의 불확실성에 대한 근사치를 기반으로 선호를 query하는 방법을 결정
- 길이 K개의 여러 trajectory segments 쌍을 sampling 함.
- 앙상블의 각 reward estimator를 사용하여 어떤 segments가 선호될지 예측
- 앙상블 간 예측의 분산이 가장 높은 궤적을 선택
해당 방법은 대략적인 근사치이며, 해당 방법은 때때로 성능 저하를 일으킴.
대략적인 근사치가 아닌 구체적인 방법론은 future work로 남김

'딩딩기 > RLHF' 카테고리의 다른 글

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가? (0)	2024.03.21
[24/02/14] Reward hacking이란 무엇인가? (1)	2024.02.14
[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback (1)	2024.01.12

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

로봇이 아닙니다.

티스토리 뷰

[RLHF] Deep Reinforcement Learning from Human Preferences

요약

1. Abstract

(1-1) 정교한 Reinforcement Learning(RL) system

(1-2) 정교하지만 적게 feedback 하는 방법 제시

2. Introduction

(2-1) RL의 단점

(2-2) 책상 정리 로봇 예시

(2-3) 인간의 의도 또는 선호를 충족 시키는 방법 1.

(2-4) 인간의 의도 또는 선호를 충족 시키는 방법 2.

(2-5) 논문에서 제시하는 조건

(2-6) Feedback을 주는 방법

(2-7) Related Work

Preliminaries and Method

(3-1) Setting and Goal

(3-2) Our Method

(3-3) Optimizing the Policy

(3-4) Preference Elicitation

(3-5) Fitting the Reward Function

(3-4) Selecting Queries

'딩딩기 > RLHF' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30