'2024/03/21 글 목록

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가?

1. Human teacher란 무엇인가? 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법. 이때, oracle은 True reward function에 대한 information을 가짐 2. Preference labeling 취득 방법 (by Human teacher) 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고) 여기서, H: segment σ의 길이, r: ground truth reward (from oracle) 3. Re..

딩딩기/RLHF 2024. 3. 21. 14:17

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

로봇이 아닙니다.

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역