[RLHF] Deep Reinforcement Learning from Human Preferences
요약 clip video의 사용 현실적으로 agent의 1개의 episode는 길다. 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임. 따라서 1~2초 길이의 clip video를 통한 학습 제시 비전문가로 구성된 인간 집단 전문가의 데이터를 취득하기란 쉽지 않음. 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정. 2가지의 비교군 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬 또한 시간과 비용이 많이 들어 비효율임. 따라서 2가지의 데이터를 제시하여 비교하게 함. 본 논문의 특징 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 ..
딩딩기/RLHF
2024. 1. 15. 18:17