[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가?

티스토리 뷰

딩딩기/RLHF

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가?

딩딩기 2024. 3. 21. 14:17

1. Human teacher란 무엇인가?

간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법.
이때, oracle은 True reward function에 대한 information을 가짐

2. Preference labeling 취득 방법 (by Human teacher)

두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation
이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고)

여기서, H: segment σ의 길이, r: ground truth reward (from oracle)

3. Reward model loss function

일반적으로 Preference based Reinforcement Learning (PbRL)에서 사용되는 CrossEntropy Loss 적용 (아래 수식 참고)

여기서, >: 선호 방향, P: Bradley-Terry model로 부터 얻은 preference probability. (아래 수식 참고)

4. Reward model과 Reward hacking [자세한 것은 링크 참고 ]

Reward hacking 이란?
- agent가 해당 분야의 작업을 완료하기 위한 전략을 학습하는 것이 아닌, reward를 maximum 하는 전략을 학습하는 문제
- 즉, 편법을 학습
- 해당 문제는 agent가 reward function을 완벽하게 이해 했을 시 빈번하게 발생

그렇다면 Reward model은 reward hacking을 어떻게 완화시키는 것일까?
- reward model은 non-stationary 하기 때문에, Reward hacking을 어느정도 완화시킬 수 있음.
- 즉, agent가 reward model를 완벽하게 해석할 수 없기 때문에 가능.

5. Human Teacher based Reward model과 Reward hacking

그렇다면, Human Teacher based Reward model은 어떻게 Reward hacking을 완화할 수 있는가?
- [수식 1]에 의하면, σ 쌍의 길이는 동일, 즉 해당 길이 안에서 reward 가 maximum 하는 것을 선호
  - 다시 말해 reward model은 일정 길이 내에서 최대한으로 reward를 maximum 하는 것을 선호
  - 해당 조건(일정 길이 내에서 reward 최대화) 안에 하는 것은 해당 분야의 작업 목적과 상응하다고 볼 수 있음
- 5.에서 언급한 이유도 포함

6. 실험

실험 목적: Reward model은 Reward hacking을 완화하는가?

실험 비교군: RL W Feedback vs RL W/o Feedback

실험 방법: 두 방법론에 동일한 reward function 제공하여 결과 분석

실험:

RL W Feedback

RL W/o Feedback

분석

첫번째 영상에선, Agent가 oscillation없이 goal 에 바로 들어가는 것을 확인, 즉 해당 분야의 작업 목적에 알맞게 학습하는 것을 확인.

두번째 영상에선, Agent가 goal 근처에서 heading oscillation이 발생, 즉 reward를 최대화 하는 것에 목표를 두는 것을 확인

결론

Reward model 방법론 (즉, preference based RL)은 reward hacking을 완화할 수 있다.

'딩딩기 > RLHF' 카테고리의 다른 글

[24/02/14] Reward hacking이란 무엇인가? (1)	2024.02.14
[RLHF] Deep Reinforcement Learning from Human Preferences (1)	2024.01.15
[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback (1)	2024.01.12

로봇이 아닙니다.당황했습니까? 휴먼

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

로봇이 아닙니다.

티스토리 뷰

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가?

1. Human teacher란 무엇인가?

2. Preference labeling 취득 방법 (by Human teacher)

3. Reward model loss function

4. Reward model과 Reward hacking [자세한 것은 링크 참고 ]

5. Human Teacher based Reward model과 Reward hacking

6. 실험

'딩딩기 > RLHF' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역