티스토리 뷰
요약
- clip video의 사용
- 현실적으로 agent의 1개의 episode는 길다.
- 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임.
- 따라서 1~2초 길이의 clip video를 통한 학습 제시
- 비전문가로 구성된 인간 집단
- 전문가의 데이터를 취득하기란 쉽지 않음.
- 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득
- 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정.
- 2가지의 비교군
- 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬
- 또한 시간과 비용이 많이 들어 비효율임.
- 따라서 2가지의 데이터를 제시하여 비교하게 함.
- 본 논문의 특징
- 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 방법을 제시.
- 비전문가의 평가로 이루어진 선호도 데이터를 통해 학습 성과를 보여줌
1. Abstract
(1-1) 정교한 Reinforcement Learning(RL) system
- 정교한 RL system이 실제 환경과 유용하게 상호 작용하려면 본 시스템의 복잡한 목표(goal)를 전달할 수 있어야 함.
- 본 논문은 state, action 쌍으로 구성된 trajectory(또는 agent의 history)에 대한 (비전문가) 인간의 선호도를 구성, 선호도로 정의된 목표를 탐구함.
(1-2) 정교하지만 적게 feedback 하는 방법 제시
- 환경과 agent가 서로 상호 작용하는 횟수의 1% 미만의 feedback data로 복잡한 RL의 목표를 효과적으로 해결할 수 있는 방법 제시
- Atari games도 있고 robot의 운동 (mujoco) 도 포함.
2. Introduction
(2-1) RL의 단점
- RL이 적극적으로 또는 좋은 성과를 보여준 분야는 reward function이 구체적으로 그리고 명확하게 제시되었기 때문.
- 하지만 실제 많은 분야에서의 목표는 복잡하거나, 구체화하기 어려움.
- 이러한 단점을 극복하는 것은 Deep Reinforcement Learning (DRL)의 사용 가능한 분야를 확대 시킬 수 있음.

(2-2) 책상 정리 로봇 예시
- 책상 정리 로봇을 RL로 학습시킨 후 사용하고자 하는 상황.
- 로봇의 센서를 기반으로 하는 적절한 reward function을 설계하는 것은 명확하지 않음.
- 물론 의도된 행동을 유도하기 위해서 아주 간단한 reward function을 설계할 수 있음.
- 하지만 이는 “우리의 의도를 완전히 충족시키지 못함”.
- 따라서 인간의 의도 또는 선호를 충족시키도록 하는 reward function을 agent에게 전달할 수 있다면, 인간의 선호와 RL의 목표의 불일치에 대응하는 중요 연구임.
(2-3) 인간의 의도 또는 선호를 충족 시키는 방법 1.
- 물론 전달 방법이 완전히 없는 것은 아님
- Inverse Reinforcement Learning (IRL)
- IRL과 같이 인간의 행동 예시를 보여줘서 인간의 행동에서 reward function을 추출할 수 있음.
- 이렇게 추출된 reward function을 그대로 RL agent에게 사용할 수 있음.
- IRL과 같이 인간의 행동 예시를 보여줘서 인간의 행동에서 reward function을 추출할 수 있음.
- Imitation Learning (IL)
- IL은 인간의 행동 예시에서 행동을 모방함으로서 인간의 의도 또는 선호를 충족시키는데 있어 더 직접적인 방법임.
- Inverse Reinforcement Learning (IRL)
- 하지만 IRL과 IL 모두 인간이 입증하기 어려운 행동에는 직접적으로 적용할 수 없음.
- e.g. 자유도는 높지만 인간과 매우 다른 형태를 지닌 로봇 제어
(2-4) 인간의 의도 또는 선호를 충족 시키는 방법 2.
- (2-3)절 과는 다른 접근 방법이 있음.
- 사람을 직접적으로 RL system에 접근하게 함으로써 agent의 행동에 feedback을 주는 방법.
- 이러한 feedback은 해당 분야의 목표를 정의하는데 사용.
- 그러나 이와 같은 방법은 학습이 많이 요구되는 RL system의 경우 feedback 방법은 비효율적임.
- 따라서 실용적인 RL agent의 학습을 위해서 feedback의 양을 줄일 필요가 있음
(2-5) 논문에서 제시하는 조건
- 인간이 원하는 행동을 인식할 수만 있고 반드시 시연할 수 없는 작업을 해결할 수 있어야 함.
- 비전문가가 agent를 가르칠 수 있어 함.
- 큰 규모의 문제에 대응할 수 있어야 함.
- 사용자 피드백을 효율적으로 활용해야 함.
(2-6) Feedback을 주는 방법
- feedback을 학습하는 reward model을 학습함과 동시에 해당 model를 통해 policy를 학습함. (단, 비동기)

- 두 개의 비디오 클립을 비교하여 feedback을 부여
- 절대적인 숫자 점수가 아님. 단순히 선호 비디오 선택
- 이를 통해서 임의 분야에서 인간이 쉽게 선택 가능
(2-7) Related Work
- 다양한 선행 연구 분야
- 인간의 평가나 순위를 통한 RL 연구
- 절대적인 보상 값이 아닌 선호도를 통한 연구
- 인간의 선호도를 최적화하는 데 중점을 둔 연구
- 선행 연구와 본 연구의 차이점
- 본 연구는 인간의 평가나 순위를 통한 RL 연구
- 기존 방법은 자유도가 간단하고 행동이 이산적인 RL system
- 행동이 연속인 것을 고려하더라도 reward model이 선형적이라 가정
- 본 논문은 자유도가 복잡하고 행동 공간이 연속적이며 reward model이 비선형인 방법
- 또한 기존 연구는 video 전체에 대해서 실시하지만 본 논문은 클립을 이용하여 더 많은 데이터를 얻고 데이터 추출에 필요한 인원을 줄임.
- 본 연구와 유사한 선행 연구
- reward function이 알려지지 않은 “target” policy와 많이 다르다는 가정을 한 연구.
- 단, 해당 연구의 target policy는 hand-coded features로 구성된 linear function 또한 reward function을 Bayesian inference를 통해 만들었음.
- 본 논문은 비전문가 집단으로부터 수집한 피드백을 사용함
- reward function이 알려지지 않은 “target” policy와 많이 다르다는 가정을 한 연구.
- 본 연구의 기여점
- DRL에 human feedback을 사용하여 agent의 복잡한 행동에 대한 학습
Preliminaries and Method
(3-1) Setting and Goal
- Denote
- observation: ot∈O
- agent가 각 time step t 마다 observation ot∈O를 환경으로부터 습득
- action: at∈A
- agent가 환경을 통해 얻은 ot 를 통해 실시한 at
- reward: rt∈R
- 기존의 RL의 경우 환경이 reward signal을 agent에게 제공
- 본 논문에서는 human feedback를 통해서 제공한다 가정
- trajectory segments: σ=((o0,a0),(o1,a1),..(ok−1,ak−1))∈(O×A)k
- agent의 observation와 action 쌍을 순서대로 묶은 history
- 여기서 σ1>σ2 는 사람이 σ1를 선호 한다는 것을 의미.
- agent는 σ1를 만드는 것을 목표로 함.
- observation: ot∈O
- 본 알고리즘에 대한 행동을 평가하는 두 가지 방법
- Quantitative
- 선호 >는 reward function r: O×A→R 을 통해서 만들어진다고 가정
- 만약 (O×A)1>(O×A)2 이라면, ∑r(o1t,a1t)>∑r(o2t,a2t)
- 만약 사람의 선호도가 reward function r에 의해서 생성된다면, agent는 r에 따라 높은 return을 받아야 함
- 따라서 reward function r를 알고 있으면, agent를 Quantitative (양)으로 평가 가능
- Qualitative
- 때때로 Quantitative (양)으로 평가 가능하도록 하는 reward function r가 없음.
- 이런 경우, Qualitative (질)로 평가할 수 밖에 없음.
- agent의 action이 해당 목표를 얼마나 잘 달성하는지에 기반하여 평가
- 해당 방법은 선행 연구와 유사하지만 다른점이 있음.
- 선행 연구는 고정된 state로 reset이 가능하지만, 본 논문은 그렇지 않음.
- 그렇기에 다른 state에서 시작하는 trajectory segments를 얻을 수 있음.
- Quantitative
(3-2) Our Method
- 각 점에서 policy π:O→A 를 유지하고, Deep neural Network의 parameter를 통해 reward function ˆr : O×A→R 를 추정함.
- 고정된 Policy를 통해서 Trajectory를 생성하고 해당 Trajectory에 feedback을 부여, 이를 통해 reward function을 추정함.
- 아래의 3가지 과정을 통해 networks는 업데이트 됨.
- policy π 를 통해 agent는 환경과 상호작용하여 trajectory 집합 [ τ1,τ2,…,τi] 를 생성
- trajectory 집합으로부터 segments (σ1,σ2)을 선택하고 인간에게 feedback을 받음.
- feedback을 target으로 supervised learning(지도 학습)을 실시. 즉, ˆr의 parameter를 feedback에 매핑(추정)
- 위 과정들은 전부 **비동기(asynchronously)**임.
(3-3) Optimizing the Policy
- ˆr 를 통해 reward를 계산한 후에, DRL의 기존 문제를 해결해야 함.
- ˆr 이 non-stationary(시간에 따라 변화)일 수 있으며, 이는 reward function의 변화에 대해 견고한 방법을 고려해야 함을 의미.
- 따라서 본 논문은 policy gradient 에 중점을 두었음.
- atrari game: Advantage Actor-Critic (A2C)를 사용
- robotics tasks: Trust Region Policy Optimization (TRPO) 사용
- 위에 해당하는 A2C와 TRPO 모두 기존 parameter를 사용. 단, TRPO의 entropy bonus 만 조정
- reward ˆr에 의해 생성된 reward를 정규화하여 평균이 0 이고 표준편차가 일정하도록 함.
- 이는 학습에서 reward의 위치가 결정되지 않기 때문에(Non-stationary)특히 적절한 전처리 단계
(3-4) Preference Elicitation
- 사람으로 구성된 평가자에게 2가지의 trajectory segments (σk,σk−1)을 제공.
- 이때 full trajectory, 즉 episode가 시작부터 끝까지로 구성된 영상(video)이 아닌, 1~2초짜리 clip video를 제공.
- 해당 쌍 중에 선호되는 것을 사람이 선택, 두 가지의 trajectory segments가 동등하게 좋다고 생각하는지 또는 비교할 수 없다고 생각하는지 표기
- 이러한 사람의 판단을 data based D(σ1,σ2,μ) 로 저장.
- μ : {1,2} 로 구성된 분포로 사람의 선호를 나타냄.
- 만약 둘 중 하나의 segment를 선호 한다면, μ 는 모든 질량(가중치)를 해당 segment에 부여.
- 만약 둘 다 선호하는 경우 또는 동등하다고 판단하는 경우, μ 는 uniform(균등) 분포
- 마지막으로 둘 다 판단이 불가능하다고 하는 경우, 해당 data는 D 집합에 포함하지 않음.
(3-5) Fitting the Reward Function
- 만약 ˆr 를 인간의 판단을 설명할 수 있는 latent factor로 바라본다면, reward function estimate ˆr 를 선호 예측자(preference- predictor)로 가정할 수 있음.
- 이때, 인간이 σi를 선호하는 확률은 reward 값이 clip video의 길이에 걸쳐 지수적으로 의존한다고 가정
- ˆP[σ1>σ2]=exp∑ˆr(o1t,a1t)exp∑ˆr(o1t,a1t)+exp∑ˆr(o2t,a2t)
- 지수적인 수식을 통해서 상대적인 선호도를 normalize 가능하게 함.
- 또한 선호도를 확률로 표현이 가능하게 함.
- 이때, 인간이 σi를 선호하는 확률은 reward 값이 clip video의 길이에 걸쳐 지수적으로 의존한다고 가정
- 위 수식과 같은 predictions와 사람의 feedback 사이의 Cross-Entropy loss가 최소로 되게 하는 ˆr을 선택
- L(ˆr)=−∑μ(1)logˆP[σ1>σ2]+μ(2)logP[σ2>σ1]
- 두 trajectory segments의 예측된 reward 차이는 한 trajectory가 다른 것을 선택할 확률을 추정하는 것을 의미.
- 앙상블의 사용
- 앙상블(ensemble)이란?
- 여러 개의 기본 모델을 활용하여 하나의 새로운 모델을 만들어내는 개념
- 대게 overfitting을 막기 위해서 사용
- 종류로는 Voting, Bagging, Boosting이 있음.
- Voting: 다수의 estimator가 결정한 예측값을 최종 값으로 사용. 또는 평균 중 가장 높은 확률을 선택
- Bagging: sample를 여러번 뽑아 각 모델에 학습시켜 결과물을 집계
- Boosting: 오분류된 데이터에 초점을 맞추어 더 많은 가중치를 부여
- ˆr은 각 모델을 독립적으로 정규화한 다음 결과를 평균화하여 정의
- 1e 의 데이터 비율은 validation set으로 사용할 목적
- l2 정규화를 사용하여 validation loss를 training loss에서 1.1배에서 1.5배 사이로 유지
- 인간의 평가가 오류를 만들어낼 확률이 일정하고 reward 차이가 극단이 될수록 0으로 감소하지 않기 때문에 ˆP에서 softmax를 직접적으로 사용하지 않는 대신에 인간이 무작위로 균일하게 응답할 확률이 10%라고 가정
- 앙상블(ensemble)이란?
(3-4) Selecting Queries
- reward function estimator의 불확실성에 대한 근사치를 기반으로 선호를 query하는 방법을 결정
- 길이 K개의 여러 trajectory segments 쌍을 sampling 함.
- 앙상블의 각 reward estimator를 사용하여 어떤 segments가 선호될지 예측
- 앙상블 간 예측의 분산이 가장 높은 궤적을 선택
- 해당 방법은 대략적인 근사치이며, 해당 방법은 때때로 성능 저하를 일으킴.
- 대략적인 근사치가 아닌 구체적인 방법론은 future work로 남김
'딩딩기 > RLHF' 카테고리의 다른 글
[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가? (0) | 2024.03.21 |
---|---|
[24/02/14] Reward hacking이란 무엇인가? (1) | 2024.02.14 |
[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback (1) | 2024.01.12 |