[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
요약 reward 모델은 편향에 취약하다. Unimodal를 가정하여 reward 모델을 학습하기에 다수의 선호를 주로 학습하며 반대로 소수의 의견은 묵살하는 경향을 보인다. Pretrained 모델로 (state,action)데이터를 취득하기 때문에 feedback 할 수 있는 데이터의 종류가 한정되어 편향이 존재한다. reward 모델을 학습 시 local minima에 빠져 편향적일 수 있다. 인간의 선호를 100% 이해한 reward 모델을 만들기 어렵다. RLHF에서 feedback collection은 어렵다 사람마다의 주관이 다르기 때문에 적절한 feedback을 얻기 어렵다. 동일한 사람이라도 문맥과 시간의 흐름에 따라 평가 지표가 변화된다. feedback collection 방법에 따라..
딩딩기/RLHF
2024. 1. 12. 15:56