'딩딩기' 카테고리의 글 목록

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가?

1. Human teacher란 무엇인가? 간단하게 oracle (또는 human) 이 사전에 정의한 Reward function을 토대로 preference labeling을 취득하는 방법. 이때, oracle은 True reward function에 대한 information을 가짐 2. Preference labeling 취득 방법 (by Human teacher) 두 쌍의 Segment σ, state-action (s,a) 쌍의 집합으로 부터 얻은 reward를 summation 이후 둘 중에 max 값을 지닌 σ를 preference (y =1) 라고 정의 (수식은 아래 참고) 여기서, H: segment σ의 길이, r: ground truth reward (from oracle) 3. Re..

딩딩기/RLHF 2024. 3. 21. 14:17

[24/02/14] Reward hacking이란 무엇인가?

https://www.youtube.com/watch?v=mf9w6pz_tfQ 요약 Reward hacking 이란? agent가 편법과 같은 의도하지 않은 방법을 통해 목표 달성 방법을 학습하는 것 Reward hacking의 원인은? 학습 목표에 대해 구체적이지 못한 reward shaping과 agent의 근본적인 목표인 return maximizing으로 인해 발생 Reward hacking을 해결하기 위한 방법은? reward function 대신 non-fixed reward network을 사용 RLHF(reinforcement learning from human feedback)에서의 Reward hacking pretrain reward model 보다 학습 가능한 reward model..

딩딩기/RLHF 2024. 2. 14. 20:05

[RLHF-Navigation] Feedback-efficient Active Preference Learning for Socially Aware Robot Navigation

요약 Hybrid experience buffer를 통해 sample 효율을 증가 curious exploration과 expert demonstraion 사용 human feedback을 사용하여 좀 더 자연스러운 주행을 보여줌. 1. Abstract (1-1) Socially aware robot navigation (SARN) SARN이란? 로봇이 목표에 도달할 때 충돌이 없도록 하는 것 인간과 로봇으로 하여금 편안하도록 하는 것. e.g. 로봇이 인간의 경로를 방해하면, 인간은 불편함을 느낌 e.g. 로봇의 경로가 부드럽지 않으면, 로봇의 모터가 마모되는 등 불안정해짐. e.g. 우측 보행이 만연한 집단에 혼자 좌측 보행 하는 사람 → 우리는 불편함을 느낌. SARN’s challenging 인간..

딩딩기/강화학습 자율주행 2024. 1. 16. 02:50

[RLHF] Deep Reinforcement Learning from Human Preferences

요약 clip video의 사용 현실적으로 agent의 1개의 episode는 길다. 이는 인간이 선호도를 평가할 때 시간과 비용이 많이 들어 비효율임. 따라서 1~2초 길이의 clip video를 통한 학습 제시 비전문가로 구성된 인간 집단 전문가의 데이터를 취득하기란 쉽지 않음. 이를 해결하기 위해 비전문가로 이루어진 집단에서 선호도 데이터 취득 적합한 task에 해당하는 reward model을 위해서 앙상블 사용과 인간의 오류가 항상 10%에 있다고 가정. 2가지의 비교군 선호도 평가시 N가지의 비교군을 사용하게 되면 명확한 비교가 힘듬 또한 시간과 비용이 많이 들어 비효율임. 따라서 2가지의 데이터를 제시하여 비교하게 함. 본 논문의 특징 선호도에 대한 데이터를 취득하는 비용과 시간을 절약하는 ..

딩딩기/RLHF 2024. 1. 15. 18:17

[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

요약 reward 모델은 편향에 취약하다. Unimodal를 가정하여 reward 모델을 학습하기에 다수의 선호를 주로 학습하며 반대로 소수의 의견은 묵살하는 경향을 보인다. Pretrained 모델로 (state,action)데이터를 취득하기 때문에 feedback 할 수 있는 데이터의 종류가 한정되어 편향이 존재한다. reward 모델을 학습 시 local minima에 빠져 편향적일 수 있다. 인간의 선호를 100% 이해한 reward 모델을 만들기 어렵다. RLHF에서 feedback collection은 어렵다 사람마다의 주관이 다르기 때문에 적절한 feedback을 얻기 어렵다. 동일한 사람이라도 문맥과 시간의 흐름에 따라 평가 지표가 변화된다. feedback collection 방법에 따라..

딩딩기/RLHF 2024. 1. 12. 15:56

[Graph] 12/25 간단하게 알아보는 GCN(Graph Convolution Network)

논문 링크: https://arxiv.org/pdf/1609.02907.pdf 참고 자료: https://tkipf.github.io/graph-convolutional-networks/ code: https://github.com/tkipf/pygcn1. Graph Convolution Network Graph에 convolultion 기법을 적용한 방법으로 local graph structure를 분석하는 방법론이다. 그로 인해 Spectral graph convolution이라는 의미가 붙는다. 기존에 GCN에 대한 정리 글들을 읽어보았는데 자세히 정리되거나 설명하는 블로그 글이 없어서 이번 기회에 GCN 논문을 제대로 뜯어먹고자 한다. 2. Fast Approximated Convolutions ..

딩딩기/Graph 2023. 12. 25. 11:08

[Graph] 12/25 간단하게 알아보는 Graph 1

1. Graph 란 무엇인가? 1.1. Graph의 정의 $G$ 라고 표현하며, 구성요소는 일반적으로 $V$ (Vertex), $E$ (edge)로 구성된다. 이때 vertex를 node라고 하기도 한다. [여기서는 node로 통일한다.] 따라서 $G(V,E)$ 으로 나타낸다. 1.2. Node, Edge, Adjacency matrix, Degree matrix, Laplacian matrix 1.2.1 Node와 Edge Node란 객체의 정보를 나타낸다. 이때 정보를 node features 또는 node attributes라고 한다. Edge란 node 간의 연결을 의미한다. 간단한 예시로 Social Network Serive(SNS)가 있다. 사람들 하나하나를 Node라고 하면, features의 ..

딩딩기/Graph 2023. 12. 25. 06:41

[Graph] 12/10 간단하게 알아보는 GAT(Graph Attention Network)

paper Graph Attention Networks We present graph attention networks (GATs), novel neural network architectures that operate on graph-structured data, leveraging masked self-attentional layers to address the shortcomings of prior methods based on graph convolutions or their approximations arxiv.org 연구의 필요성 CNN 은 image classification ,segmentation 및 machine translation 에 좋은 성능을 보여줌. 이러한 data는 grid와..

딩딩기/Graph 2023. 12. 10. 21:33

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

로봇이 아닙니다.

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30