1. Human teacher란 무엇인가? 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법. 이때, oracle은 True reward function에 대한 information을 가짐 2. Preference labeling 취득 방법 (by Human teacher) 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고) 여기서, H: segment σ의 길이, r: ground truth reward (from oracle) 3. Re..
https://www.youtube.com/watch?v=mf9w6pz_tfQ 요약 Reward hacking 이란? agent가 편법과 같은 의도하지 않은 방법을 통해 목표 달성 방법을 학습하는 것 Reward hacking의 원인은? 학습 목표에 대해 구체적이지 못한 reward shaping과 agent의 근본적인 목표인 return maximizing으로 인해 발생 Reward hacking을 해결하기 위한 방법은? reward function 대신 non-fixed reward network을 사용 RLHF(reinforcement learning from human feedback)에서의 Reward hacking pretrain reward model 보다 학습 가능한 reward model..
요약 clip video의 사용 현실적으로 agent의 1개의 episode는 길다. 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임. 따라서 1~2초 길이의 clip video를 통한 학습 제시 비전문가로 구성된 인간 집단 전문가의 데이터를 취득하기란 쉽지 않음. 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정. 2가지의 비교군 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬 또한 시간과 비용이 많이 들어 비효율임. 따라서 2가지의 데이터를 제시하여 비교하게 함. 본 논문의 특징 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 ..
요약 reward 모델은 편향에 취약하다. Unimodal를 가정하여 reward 모델을 학습하기에 다수의 선호를 주로 학습하며 반대로 소수의 의견은 묵살하는 경향을 보인다. Pretrained 모델로 (state,action)데이터를 취득하기 때문에 feedback 할 수 있는 데이터의 종류가 한정되어 편향이 존재한다. reward 모델을 학습 시 local minima에 빠져 편향적일 수 있다. 인간의 선호를 100% 이해한 reward 모델을 만들기 어렵다. RLHF에서 feedback collection은 어렵다 사람마다의 주관이 다르기 때문에 적절한 feedback을 얻기 어렵다. 동일한 사람이라도 문맥과 시간의 흐름에 따라 평가 지표가 변화된다. feedback collection 방법에 따라..