티스토리 뷰
1. Human teacher란 무엇인가?
- 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법.
- 이때, oracle은 True reward function에 대한 information을 가짐
2. Preference labeling 취득 방법 (by Human teacher)
- 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation
- 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고)
- 여기서, H: segment σ의 길이, r: ground truth reward (from oracle)
3. Reward model loss function
- 일반적으로 Preference based Reinforcement Learning (PbRL)에서 사용되는 CrossEntropy Loss 적용 (아래 수식 참고)
- 여기서, >: 선호 방향, P: Bradley-Terry model로 부터 얻은 preference probability. (아래 수식 참고)
4. Reward model과 Reward hacking [자세한 것은 링크 참고 ]
- Reward hacking 이란?
- agent가 해당 분야의 작업을 완료하기 위한 전략을 학습하는 것이 아닌, reward를 maximum 하는 전략을 학습하는 문제
- 즉, 편법을 학습
- 해당 문제는 agent가 reward function을 완벽하게 이해 했을 시 빈번하게 발생
- 그렇다면 Reward model은 reward hacking을 어떻게 완화시키는 것일까?
- reward model은 non-stationary 하기 때문에, Reward hacking을 어느정도 완화시킬 수 있음.
- 즉, agent가 reward model를 완벽하게 해석할 수 없기 때문에 가능.
5. Human Teacher based Reward model과 Reward hacking
- 그렇다면, Human Teacher based Reward model은 어떻게 Reward hacking을 완화할 수 있는가?
- [수식 1]에 의하면, σ 쌍의 길이는 동일, 즉 해당 길이 안에서 reward 가 maximum 하는 것을 선호
- 다시 말해 reward model은 일정 길이 내에서 최대한으로 reward를 maximum 하는 것을 선호
- 해당 조건(일정 길이 내에서 reward 최대화) 안에 하는 것은 해당 분야의 작업 목적과 상응하다고 볼 수 있음
- 5.에서 언급한 이유도 포함
- [수식 1]에 의하면, σ 쌍의 길이는 동일, 즉 해당 길이 안에서 reward 가 maximum 하는 것을 선호
6. 실험
실험 목적: Reward model은 Reward hacking을 완화하는가?
실험 비교군: RL W Feedback vs RL W/o Feedback
실험 방법: 두 방법론에 동일한 reward function 제공하여 결과 분석
실험:
- RL W Feedback
- RL W/o Feedback
분석
첫번째 영상에선, Agent가 oscillation없이 goal 에 바로 들어가는 것을 확인, 즉 해당 분야의 작업 목적에 알맞게 학습하는 것을 확인.
두번째 영상에선, Agent가 goal 근처에서 heading oscillation이 발생, 즉 reward를 최대화 하는 것에 목표를 두는 것을 확인
결론
Reward model 방법론 (즉, preference based RL)은 reward hacking을 완화할 수 있다.
'딩딩기 > RLHF' 카테고리의 다른 글
[24/02/14] Reward hacking이란 무엇인가? (1) | 2024.02.14 |
---|---|
[RLHF] Deep Reinforcement Learning from Human Preferences (1) | 2024.01.15 |
[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback (1) | 2024.01.12 |
댓글