[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가?
1. Human teacher란 무엇인가? 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법. 이때, oracle은 True reward function에 대한 information을 가짐 2. Preference labeling 취득 방법 (by Human teacher) 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고) 여기서, H: segment σ의 길이, r: ground truth reward (from oracle) 3. Re..
딩딩기/RLHF
2024. 3. 21. 14:17