티스토리 뷰

딩딩기/RLHF

[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

딩딩기 2024. 1. 12. 15:56

요약

reward 모델은 편향에 취약하다.
- Unimodal를 가정하여 reward 모델을 학습하기에 다수의 선호를 주로 학습하며 반대로 소수의 의견은 묵살하는 경향을 보인다.
- Pretrained 모델로 (state,action)데이터를 취득하기 때문에 feedback 할 수 있는 데이터의 종류가 한정되어 편향이 존재한다.
- reward 모델을 학습 시 local minima에 빠져 편향적일 수 있다.
  - 인간의 선호를 100% 이해한 reward 모델을 만들기 어렵다.
RLHF에서 feedback collection은 어렵다
근본적인 DRL 문제점
- policy가 local minima에 빠질 가능성이 있다.
- 학습된 환경과 실물환경에서의 sim-to-real gap이 존재한다.

Abstract

(1) RLHF의 정의

Reinforcement learning from human feedback의 약어로 인간의 목표에 맞춰서 AI 시스템을 학습시키는 것.
최근 Chat GPT4와 같은 Large Language Models(LLMs)에서의 놀라운 성능으로 각광 받고 있음.
이러한 인기에도 불구하고 그 결점을 체계화하는 작업은 상대적으로 더딤.

(2) 리뷰 논문 개요

RLHF의 한계를 강조하고 보다 안전한 AI 시스템 개발에 대한 다층적 접근 방식의 중요성을 강조
- RLHF와 관련 방법에 대한 기본적인 제한점과 문제점에 대해 조사
- 실무에서 RLHF에 대한 보완, 향상, 그리고 이해를 위한 기술을 조사
- RLHF 시스템에 대한 사회적 감독을 개선하기 위한 감사 및 공개 표준 제안

1. Introduction

(1) LLMs & RLHF

RLHF 및 이와 유사한 방법을 통해 LLM은 훈련 데이터의 분포를 모델링하는 것 이상을 수행하고 인간 평가자가 모델 출력을 더 높게 평가할 수 있도록 텍스트 분포를 조정할 수 있다.

(2) RLHF를 위한 3가지 단계

feedback collection
- 인간을 통해 모델의 결과를 평가한 후, 평가들을 수집한다.

reward modeling
- 수집된 평가를 바탕으로 supervised learning을 통해 reward model를 학습한다.
- 이는 평가를 모방(imitates)하는 것
policy optimization
- 학습된 reward model을 통해 평가의 선호도를 얻어 AI 모델을 최적화 한다.

(3) RLHF와 경제학

RLHF는 경제학의 Revealed preference theory을 기원으로 함.
- Revealed preference theory (현시 선호 이론)
  - 소비자 이론에서 실제로 관찰 불가능한 선호,효용 등의 개념을 버리고 단순히 시장에서 관찰 가능한 소비자 행위 만을 가지고 소비자 이론을 재정립하는 이론
RLHF는 Revealed preference theory을 통해 주체의 목표를 배울 수 있다는 개념을 형식화한 것
현재 주로 주로 사용되는 RLHF의 방법론은 Christiano et al. (2017)에서 제시되었음.

(4) RLHF의 문제점

LLMs에서 사용된 RLHF의 문제점은 다음과 같음
- 개인 정보를 노출 시킴
- 창작된 거짓 콘텐츠를 생성함
- 특정 정치적 이념을 선호하는 편향을 전파
- 아첨 등..

(5) 문제점 체계화

위와 같은 LLMs의 RLHF 문제점을 체계화하기 위해 기여한 것 3가지
- RLHF의 구체적인 도전과제
- RLHF를 더 넓은 기술적 안전 프레임워크에 통합
- 지도 및 투명성

2. Background and Notations

(1) RLHF의 주요 3 단계들

Step 0, (Optional) Pretraining
- $\theta$ 로 사전 학습된 기본 모델 $\pi_{\theta}$ 를 이용해서 데이터들의 분포를 생성한다.
- e.g. LLMs에서 RLHF의 경우, 기본 모델은 일반적으로 web text와 같은 데이터 셋을 통해 사전 학습된 언어 생성 모델이다.
Step 1, Collecting human feedback
- 사전 학습된 모델로부터 데이터를 얻고 human feedback을 해당 데이터를 통해 얻는 단계
- H라는 사람이 요구하는 임의의 reward function을 rH 라고 한다.feedback function f이 데이터 샘플 xi과 잡음 ϵi 를 feedback yi으로 사상한다고 하면 다음과 같이 data collection process를 표현할 수 있다.
  - $x_i ~\pi_{\theta} y_i =f(H,x_i,\epsilon_i)$
- $\pi_{\theta}$ 로부터 얻은 각 데이터 샘플 $x_i$ 이라 한다.
- 간단하게 말하면, 데이터에 대한 사람의 선호도를 취득하는 단계
Step 2, Fitting the reward model
- reward model $\hat r_{ϕ}$ 을 $H$ 가 제공한 평가에 최대한 맞추기 위해서 필요한 단계
- 앞서서 얻은 데이터 셋 D=[(xi,yi)i=1,..,n] 을 통해서 ϕ 를 최소화 하는 방향으로 학습시킨다.
  - $L(D,ϕ) = \sum l(\hat{r_ϕ}(x_i),y_i)+λ_r(ϕ)$
- 여기서 $l$ 은 적합한 loss function, $λ_r$ 은 정규화 항이다.
- e.g. cross-entropy loss와 Bayesian personalized ranking loss 가 있다.
- 간단하게 말하면, 취득한 데이터와 선호도 쌍을 이용하여 reward model를 학습하는 단계
Step 3, Optimizing the Policy with RL
- 마지막 단계로, 앞서 얻은 reward model를 통해 사전 학습된 기본 모델을 DRL를 통해 finetune 하는 단계
- R(θnew) 를 최대화 하는 방향으로 학습한다.
  - $R(\theta_{new}) = E[\hat{r_ϕ}(x) + λ_p(\theta,\theta_{new},x)]$
- 여기서 $λ_p$ 는 정규화 항으로 두 분포의 divergence-based penalty 이다.
- 간단하게 말하면, 학습된 reward model을 통해 사전 학습된 모델을 다시 학습시킨다.

(2) RLHF의 이점

hand-specifying reward function 없이 인간이 직접 목표를 전달할 수 있다.
reward 형성을 자연스럽고 암시적으로 만들 수 있다.
demonstrations 보다 더 쉽게 사람의 판단을 전달할 수 있다.

3. Open Problems and Limitations of RLHF

본 논문에선 앞서 소개한 3가지 단계를 기반으로 크게 3가지 종류로 RLHF의 문제점을 다룬다.
- human feedback의 문제점
- training reward model의 문제점
- training policy의 문제점
여기에 추가적으로 reward model과 policy의 jointly learning에 대해서도 다룬다.

(1) Challenges with Obtaining Human Feedback

인간으로부터 좋은 feedback을 얻는 것과 human feedback이 최적이 아닌 방식을 모델링 하는 것 모두 어렵다.
이들은 크게 4가지로 앞으로 소개할 내용들 이다.

(1-1) Misaligned Humans: Evaluators may Pursue the Wrong Goals

대표적인 사람을 선택하고 그들로부터 질 좋은 feedback을 얻는 것은 어렵다.
- 편향이 발생할 수 도 있다. (e.g. ChatGPT의 정치 편향)
- 이러한 편향은 Feedback을 취득하는 과정 중에 부적절한 대표자 존재로 인해 야기된다. 즉, 사람이 데이터를 오염시킬 수 있다.
  - 사람은 항상 바람직하고 윤리적인 의견을 가지지 않을 수 있다.

(1-2) Good Oversight is Difficult

평가자의 주의력 결핍으로 인한 실수가 존재한다.
- 사전 학습 모델로부터 얻은 데이터를 평가하는 것은 때때로 감정적인 것이 요구되기 때문에 실수가 유발된다.
- 무책임한 평가로 인해서 문제가 될 수 있다.
부분적 데이터는 평가를 어렵게 한다.
- 데이터에 모든 정보가 포함되어 있지 않으면 사람이 유익한 피드백을 제공할 수 없다.

어려운 작업은 사람이 평가하기 어렵다.
- 완벽한 정보와 충분한 시간이 주어져도 어려운 문제는 사람이 평가하기가 어렵다.

사람은 오해라는 게 있다.
- 이러한 데이터를 통해 reward 모델은 좋은 것과 긍정적으로 평가되는 것 사이의 차이를 악용할 수 있다.

(1-3) Data Quality

데이터 수집은 해로운 편향을 도입할 수 있다.
인간 피드백을 수집할 때는 본질적인 비용/품질의 trade-off가 있다.

(1-4) Limitations of Feedback Types

Feedback 유형에 따라서 풍부성(richness)과 효율성(efficiency)간의 trade-off가 존재한다.
- Comparison-based feedback
  - 이진 선호도를 통한 feedback 방법
  - 선호도의 강도에 대해서 명확한 정보가 없다. 따라서 얼마나 선호하는지 판단이 어렵다.
  - e.g. 평가자 A의 입장에선 긍정이 60%임에도 reward을 0으로 지정할 수 있다.
- Scalar feedback
  - Comparison-based feedback과는 반대로 표현력이 높은 feedback 방법
  - 평가자의 일관성이 중요하다.따라서 높은 인지가 요구된다.
  - Scalar feedback을 이산화한 방법이 있는데, [good, very good,..] 로 평가할 수 있는 Likert scale 가 있다.
- Label feedback
  - 사전 학습 모델의 데이터를 분류하는 형태로 feedback 하는 방법
  - 데이터를 적절하게 설명하기 어려울 수 있다.
- Correction feedback
  - 사전 학습 모델의 데이터를 개선하는 corrective demonstrations이나 조정의 형태로 feedback 하는 방법
  - 보정은 비교적 높은 노력이 요구되며, 평가자의 기술 수준에 따라 달라진다.
- Language feedback
  - 언어를 통해서 평가 당 많은 양의 정보를 제공할 수 있다.
  - 이러한 방법은 모호성과 목표의 잘못된 설정을 줄인다.

(2) Challenges with the Reward Model

(2-1) Problem Misspecification

개별 인간의 가치는 reward 함수로 효과적으로 나타내기 어렵다.
- 인간 Feedback은 reward model $\hat {r_ϕ}$ 을 훈련시키는데 데이터에서 쉽게 설명할 수 없는 맥락적 요소에 의존할 수 잇다.
- 즉, 평가가 상황에 따라서 또는 시간에 따라서 달라질 수 있다.
- 대부분의 RLHF 연구는 인간의 선호도의 성격과 맥락의 종속성을 고려하지 않는다.
단일 reward 함수는 다양한 사회의 다양한 인간을 나타낼 수 없다.
- 다양한 사람이 존재하기에 평가에 대해서 종종 의견이 분열된다.
- 이러한 차이를 고려하지 않고 다양한 인간의 피드백을 단일 reward 모델로 압축하려는 시도는 근본적으로 부적절하다.
- 따라서 최근 연구들은 평가자 간의 차이를 잡음으로 모델링한다.
- 결과적으로 feedback은 다수의 의견을 따른다.

(2-2) Reward Misgeneralization and Hacking

reward 모델은 올바르게 Labeling된 훈련 데이터에서도 부적절한 모델이 될 수 있다.
- 분포 밖 일반화의 위험이 있다.
불완전한 reward 모델에 최적화 하려는 것은 reward hacking을 초래한다.
- reward 모델은 local minima 또는 불가피한 실패로 인간과 다를 수 있다.
- 근본적으로 reward 모델은 인간의 혜택이 아닌 인간의 허락을 반영하도록 훈련되어 인간이 허락 할 만한 행동을 초래할 수 있다.
  - 이러한 행동은 결국 최종 목표를 달성 하지 못하게 되는 문제를 야기하며, 이를 reward hacking 이라 부른다.
  - 물론 복잡한 환경에서 reward hacking은 거의 불가능하다.

(2-3) Evaluating Reward Models

학습된 reward 모델을 평가하는 것은 어렵고 비용이 많이 든다.
- reward 모델의 품질을 평가하기 위한 간접적인 방법이 있다.
  - reward 모델을 통해 학습된 RL 모델의 결과를 바탕으로 간접적으로 평가한다.
  - 하지만 이러한 방법은 RL 모델 자체의 파라미터에도 영향을 받는 점이 있다.

(3) Challenges with the Policy

(3-1) Robust Reinforcement Learning is Difficult

Policy를 효과적으로 최적화하는 것은 여전히 어렵다.
- Agent는 학습을 위한 data 수집을 위해 환경과 상호작용해야 한다.
- 이는 exploratory 와 exploratory 의 균형이 요구되는데 실제로 환경에 따라서 다르다.

(3-2) Policy Misgeneralization

Policy는 훈련 중에 받은 reward가 완벽하더라도 사용 시에 성능이 저하될 수 있다.
- 실제 환경과 학습된 환경의 차이로 인한 policy 성능 저하가 존재한다.
- RLHF로 훈련된 agent가 의도된 목표가 아닌 reward를 추구하도록 잘못 일반화되는 경우가 있다.

(3-3) Distributional Challenges

RLHF에서 사전 학습된 모델 사용은 policy 최적화에 편향을 도입한다.
- RLHF는 일반적으로 사전 학습된 모델을 사용한다.
- 이로 인해서 사전 학습된 모델에 의존성을 띄게 되며,이는 편향을 가져온다.

(4) Challenges with Jointly Training the Reward Model and Policy

Joint training은 분포 이동을 유발한다.
- reward 모델과 policy를 모두 학습하는 것은 기술적으로 어렵다.
  - policy는 reward을 학습하는데 사용되는 데이터 분포를 결정한다.
  - reward 모델이 오프라인 데이터로 훈련되면 일반화 오류가 발생할 가능성이 높다. (at offline learning)
- 반대로 reward와 policy가 사전 학습 모델의 policy로부터 feedback을 수집하여 함께 학습하게 되면, “auto-induced distributional shift”에 취약하다.
  - reward가 과대평가된 특성은 feedback 데이터에서 잠차적으로 더 많이 나타나고, 과소평가된 특성은 사라질 것이다.
  - 이로 인해 reward 모델의 오류가 누적되고 수정하기 어려워진다.
policy의 효율성과 과적합을 균형 잡기 어렵다.
- RLHF의 주요 3단계는 동기적으로 수행할 수 있지만 때때로 직렬로 수행된다.
  - 이러한 경우 reward 모델은 일반적으로 분포에서 벗어나 부정확해지며, policy가 학습할 위치와 정확히 일치하게 된다.
  - 이는 일정한 학습 이후에 새로운 feedback data를 얻음으로 해결된다. 단, 새로운 data를 얻는 횟수가 빈번하면 feedback data가 낭비되고, 높으면 policy가 reward 모델의 신뢰할 수 없는 영역으로 이동한다.

4. Incorporating RLHF into a Broader Framework for Safer AI

(1) Frameworks for Better Understanding RLHF

심리학과 인간-컴퓨터
- 구체적으로 어떤 유형의 Feedback이 인간의 목표를 학습하는 데 가장 적합한지 명확하지 않다.
- 편견이 feedback 품질에 어떻게 해를 끼치는지 명확하지 않다.
- 평가를 가장 잘 선택하고 훈련시키는지 명확하지 않다.
사회학과 사회적 선택
- 개인의 관점 뿐만 아니라 영향을 받는 그룹의 규범, 기대, 가치도 고려해야 한다.
- RLHF는 상충되는 관점을 가진 여러 그룹에 정렬될 수 없는 근본적인 문제가 있다.
- 사회적 선택 이론의 관점에서 RLHF를 분석하고 어떻게 선호를 집계하는 수단이 규범적으로 수용 가능한지 이해하는 것이 중요하다.
Assistance games
- cooperative inverse RL (CIRL)와 같은 것은 RLHF와 같은 알고리즘을 분석하기 위한 framework를 제공한다.
Bayesian inference
- RLHF를 사용하여 LLM을 미세 조정하는 것은 사전 (기본 LLM)을 바람직한 LLM의 행동에 대한 증거로 조건을 주는 베이지안 추론의 한 형태로 볼 수 있다.
Worst-case behavior
- RLHF는 최악의 경우 행동에 미치는 영향은 명확하지 않다. 즉, 항상 AI 성능을 향상 시키는 것은 아니다.

(2) Addressing Challenges with RLHF

(2-1) Addressing Challenges with Human Feedback

Providing feedback with AI assistance
- 인간이 직접 feedback을 주는 것이 아닌 다른 AI가 RLHF에 feedback을 주는 것이다.
- 이를 통한 작업은 실용성과 비용 효율성이 크게 향상될 수 있다.
- 그러나 다른 AI 조차 인간이 직접 feedback을 줌으로써 학습된 모델이기 때문에 해당 feedback이 학습에 적절한지는 명확하지 않다.
Fine-grained feedback
- feedback 신호를 통해 정확한 정보를 전달하는데 어려움이 있다.
- 세부적인 feedback에 대해서는 아직 연구가 많이 진행되지 않고 있다.
Process-based supervision
- RLHF 단계의 절차에서 성능을 지속적으로 감독하는 방법이다.
- 해당 방법을 통해 LLMs를 다단계 수학문제 해결 능력을 향상시킨 사례가 있다.
Translating natural language specifications into a reward model
- 데이터에 대한 feedback을 우회하고 자연어 지침에서 직접적으로 reward 신호를 생성하는 방법이다.
Learning rewards from demonstrations
- reward 모델을 학습하는 대안적 방법으로 inverse reinforcement learning (IRL)이 있다.
- 인간의 시범을 통해 학습하는 방법이다.

(2-2) Addressing Challenges with the Reward Model

Using direct human oversight
- 특정 상황에서는 RL 훈련에 직접적으로 보상을 제공하는 것이 필요하다.
Multi-objective oversight
- reward 모델은 사람의 feedback이 기본 unimodal에서 추출한 것으로 가정한다.
- 이는 다수의 선호도만 포착하고 소수의 선호도를 잡음으로 처리하는 reward 모델로 이해할 수 있다.
- 물론 이를 해결하기 위한 방법들도 존재한다.

Maintaining uncertainty over the learned reward function
- 테스트 시, reward 모델의 불확실성을 제거하기 위해 policy가 경험하지 못한 유형의 상태를 피하도록 하는 방법이 있다.
- 또는 앙상블을 사용해서 해결한 방법이 있다.

(2-3) Addressing Challenges with the Policy

Aligning LLMs during pretraining
- LLMs의 경우, 사전 모델을 학습할 때 다양한 데이터를 인터넷에서 가져므로 원치 않는 정보는 걸려내야 할 필요가 있다.

(3) RLHF is Not All You Need: Complementary Strategies for Safety

Robustness
- RLHF로 훈련된 모델은 훈련과 실제 환경의 분포 변화로 인해 원치 않는 동작을 보일 수 있다.
- 본 문제를 해결하기 위해서 원치 않는 동작을 유발하는 데이터를 생성하는 도구를 만들어 해당 데이터에 훈련해야 한다.
Interpretability and model editing
- AI의 동작에 대해 사람이 이해할 수 있도록 하는 것은 여전히 해결되지 않은 과제이다.
- AI의 설명 가능성 및 해석 가능성은 동작을 조절하는 데 도움이 될 수 있다.

'딩딩기 > RLHF' 카테고리의 다른 글

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가? (0)	2024.03.21
[24/02/14] Reward hacking이란 무엇인가? (1)	2024.02.14
[RLHF] Deep Reinforcement Learning from Human Preferences (1)	2024.01.15

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

티스토리 뷰

[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

요약

Abstract

(1) RLHF의 정의

(2) 리뷰 논문 개요

1. Introduction

(1) LLMs & RLHF

(2) RLHF를 위한 3가지 단계

(3) RLHF와 경제학

(4) RLHF의 문제점

(5) 문제점 체계화

2. Background and Notations

(1) RLHF의 주요 3 단계들

(2) RLHF의 이점

3. Open Problems and Limitations of RLHF

(1) Challenges with Obtaining Human Feedback

(1-1) Misaligned Humans: Evaluators may Pursue the Wrong Goals

(1-2) Good Oversight is Difficult

(1-3) Data Quality

(1-4) Limitations of Feedback Types

(2) Challenges with the Reward Model

(2-1) Problem Misspecification

(2-2) Reward Misgeneralization and Hacking

(2-3) Evaluating Reward Models

(3) Challenges with the Policy

(3-1) Robust Reinforcement Learning is Difficult

(3-2) Policy Misgeneralization

(3-3) Distributional Challenges

(4) Challenges with Jointly Training the Reward Model and Policy

4. Incorporating RLHF into a Broader Framework for Safer AI

(1) Frameworks for Better Understanding RLHF

(2) Addressing Challenges with RLHF

(2-1) Addressing Challenges with Human Feedback

(2-2) Addressing Challenges with the Reward Model

(2-3) Addressing Challenges with the Policy

(3) RLHF is Not All You Need: Complementary Strategies for Safety

'딩딩기 > RLHF' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역