티스토리 뷰

1. Human teacher란 무엇인가?

  • 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법.
  • 이때, oracle은 True reward function에 대한 information을 가짐

2. Preference labeling 취득 방법 (by Human teacher)

  • 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation
  • 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고)

  • 여기서, H: segment σ의 길이, r: ground truth reward (from oracle)

3. Reward model loss function

  • 일반적으로 Preference based Reinforcement Learning (PbRL)에서 사용되는 CrossEntropy Loss 적용 (아래 수식 참고)

  • 여기서, >: 선호 방향, P: Bradley-Terry model로 부터 얻은 preference probability. (아래 수식 참고)

4. Reward model과 Reward hacking [자세한 것은 링크 참고 ]

  • Reward hacking 이란?
    • agent가 해당 분야의 작업을 완료하기 위한 전략을 학습하는 것이 아닌, reward를 maximum 하는 전략을 학습하는 문제
    • 즉, 편법을 학습
    • 해당 문제는 agent가 reward function을 완벽하게 이해 했을 시 빈번하게 발생

  • 그렇다면 Reward model은 reward hacking을 어떻게 완화시키는 것일까?
    • reward model은 non-stationary 하기 때문에, Reward hacking을 어느정도 완화시킬 수 있음.
    • 즉, agent가 reward model를 완벽하게 해석할 수 없기 때문에 가능.

5. Human Teacher based Reward model과 Reward hacking

  • 그렇다면, Human Teacher based Reward model은 어떻게 Reward hacking을 완화할 수 있는가?
    • [수식 1]에 의하면, σ 쌍의 길이는 동일, 즉 해당 길이 안에서 reward 가 maximum 하는 것을 선호
      • 다시 말해 reward model은 일정 길이 내에서 최대한으로 reward를 maximum 하는 것을 선호
      • 해당 조건(일정 길이 내에서 reward 최대화) 안에 하는 것은 해당 분야의 작업 목적과 상응하다고 볼 수 있음
    • 5.에서 언급한 이유도 포함

6. 실험

실험 목적: Reward model은 Reward hacking을 완화하는가?

실험 비교군: RL W Feedback vs RL W/o Feedback

실험 방법: 두 방법론에 동일한 reward function 제공하여 결과 분석

실험:

  • RL W Feedback

 

  • RL W/o Feedback

분석

첫번째 영상에선, Agent가 oscillation없이 goal 에 바로 들어가는 것을 확인, 즉 해당 분야의 작업 목적에 알맞게 학습하는 것을 확인.

두번째 영상에선, Agent가 goal 근처에서 heading oscillation이 발생, 즉 reward를 최대화 하는 것에 목표를 두는 것을 확인

 

결론

Reward model 방법론 (즉, preference based RL)은 reward hacking을 완화할 수 있다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30