[24/02/14] Reward hacking이란 무엇인가?
https://www.youtube.com/watch?v=mf9w6pz_tfQ 요약 Reward hacking 이란? agent가 편법과 같은 의도하지 않은 방법을 통해 목표 달성 방법을 학습하는 것 Reward hacking의 원인은? 학습 목표에 대해 구체적이지 못한 reward shaping과 agent의 근본적인 목표인 return maximizing으로 인해 발생 Reward hacking을 해결하기 위한 방법은? reward function 대신 non-fixed reward network을 사용 RLHF(reinforcement learning from human feedback)에서의 Reward hacking pretrain reward model 보다 학습 가능한 reward model..
딩딩기/RLHF
2024. 2. 14. 20:05