티스토리 뷰

딩딩기/RLHF

[24/02/14] Reward hacking이란 무엇인가?

딩딩기 2024. 2. 14. 20:05

watch?v=mf9w6pz_tfQ

요약

Reward hacking 이란?
- agent가 편법과 같은 의도하지 않은 방법을 통해 목표 달성 방법을 학습하는 것
Reward hacking의 원인은?
- 학습 목표에 대해 구체적이지 못한 reward shaping과 agent의 근본적인 목표인 return maximizing으로 인해 발생
Reward hacking을 해결하기 위한 방법은?
- reward function 대신 non-fixed reward network을 사용
RLHF(reinforcement learning from human feedback)에서의 Reward hacking
- pretrain reward model 보다 학습 가능한 reward model이 reward hacking을 완화할 수 있음.
- ensembling 기법을 사용해도 reward hacking을 완화할 뿐 완벽히 제거하기 어려움
Reward hacking 최종 정리
- agent의 근본적인 본능인 return을 최대화 하는 전략으로부터 기인하는 문제가 reward hacking
- 해당 문제를 완화하기 위해선 계속해서 feedback을 줄 수 있는 학습 가능한 reward network를 사용해야 함 (e.g. RLHF)
- 결국 reward hacking을 완벽히 없애는 방법은 open problem임을 알 수 있음.

Reward hacking이란 무엇인가?

1. Reward hacking 정의

[1] 에 따르면, 불안전한 proxy reward function ˆR 을 최적화 하는 현상
- true reward function R 에 비해서 agent의 성능이 낮아짐
좀 더 정리하면, 가끔 agent가 의도하지 않은 행동을 reward를 통해서 착취하는 것을 학습하는 경우[2]
- [3] 에 따르면, bugs라고 할 수 있고 이는 agent가 편법을 통해서 학습하는 경우
- [Figure 1]과 같이 agent가 maze map에서 목표 지점을 가는 경우, reward hacking (bugs)가 발생하게 되면, reward 설계자가 의도하지 않은 행동을 통해 return을 최대화하는 현상[Figure 1] refer from [4]

2. 그렇다면, agent 입장에선 해당 reward hacking을 인지할 수 있는가?

[5]에 따르면, agent는 reward hacking을 인지 불가능. 즉, bugs로 받아드리지 않고 return 을 최대화 하는 하나의 전략으로 생각.

3. Reward hacking은 왜 발생하는가? [5]

Partially observed goals
- 최근 RL 시스템은 reward가 경험을 통해서 취득한다고 가정. 즉, (경험): state→ action → reward
  - 위 가정은 심지어 POMDP의 상황에서도 적용
- POMDP에 적용된 가정은 RL의 목적을 타락
  - 현실 세계에서 MDP가 적용되는 상황은 많지 않기 때문에 많은 RL 시스템은 POMDP를 기반
  - 그러나 해당 기반은 agent가 얼마나 작업을 진행했는지에 대한 해석이 떨어짐.
  - 가령 방 전체를 청소하는 것을 목적으로 하는 로봇의 경우, 로봇의 센서로 인해 부분적 관측이 되는데, 해당 로봇이 방 전체를 얼마나 청소했는지는 현재 상태를 가지고 완벽하게 평가할 수 없는 상황이 존재
  - 위 예시와 같이 POMDP에선 reward shaping은 부분적이거나 불완전하게 진행되어 reward hacking을 방지할 수 없음.
Complicated system
- 코드의 복잡성이 증가할 수록 bug가 발생할 확률이 높이지는 것과 동일하게, RL 시스템의 복잡할 수록 reward hacking이 발생할 확률이 높아짐.
Abstract rewards
- 고차원 공간 상의 학습된 reward function은 적어도 하나의 차원을 따라 병적으로 높은 값이 있다면 해킹의 취약점이 될 수 있음.
Goodhart’s law
- Goodhart’s law는 경제학에서 나온 개념
- 학생의 학업 성적이 학습을 촉진하도록 장려하는 목적의 경우, 이때 학생이 단순히 성적을 얻기 위해 학습하게 된다면, 즉 벼락치기를 하게 된다면, 학생의 지식과 이해를 증진시키는 데 도움이 되지 못하는 방향으로 작용하는 것.
- 간단하게 이야기하면, 의도한 바와 다른 편법을 통해 목적을 달성하는 것을 의미. 즉, 특정 조건의 상관관계(학생의 지식과 성적)가 무너지는 것을 의미.
- RL 시스템 입장에선, agent가 목표를 달성하기 위해 편법을 사용하여 목표를 달성하는 것.
Feedback loops
- Goodhart’s law의 특수한 경우로, 일시적인 편법이 계속해서 착취되어 가장 좋은 방법으로 인식되는 경우.
- 학생이 목표가 학업 성적이 아닌 벼락치기 자체를 목표로 삼게 되며, 결과적으로 벼락치기가 강조되어 실제로는 학습의 질이 떨어지는 것.
- RL 시스템의 입장에선, agent가 작업의 목표, 즉 goal에 도달하는 것이 아닌 return을 최대화 하는 것을 목표로 학습하게 되는 것.
Environmental embedding
- reward signal은 environment로부터 agent에게 제공하여, agent는 reward를 최대한 높게 제공받는 방법을 찾아냄
- 간단하게 이야기해서 편법을 찾아낼 수 있다는 것.
- 이러한 문제는 해결하기 어려움

4. Reward hacking을 방지하기 위한 방법들 [5]

Adversarial reward functions
- 일반적인 RL 시스템에서 reward functions 는 정적인 객체이다. 즉, reward functions는 조건에 따라 reward signal를 다르게 뿜어낼 뿐, 상황에 따른 유동적인 reward signal이 아님
- 이러한 경우 agent는 편법을 통해서 return을 최대화 하는 전략을 구사
- 해당 문제를 해결하기 위해선, reward function이 정적인 객체가 아닌 유동적인 객체.
- adversarial reward function은 human in the loop 중 reward model을 학습하는 active learning 방법론을 의미.
  - 참고로 active learning은 인간이 학습 중간 중간마다 preference와 같이 feedback을 제공하는 학습 방법
Adversarial blinding
- adversarial 기법을 통해 agent가 특정 변수를 무시하도록 만듦
- 즉, agent가 reward가 어떻게 생성되는지 이해하는 것을 방해하여 reward hacking을 어렵게 만듦
Careful engineering
- 세밀한 reward shaping을 통해 reward hacking을 해결하는 것 (해당 방법은 reward network를 사용하지 않음)
- 본 방법은 모든 상황을 고려할 순 없지만, agent의 합리적인 행동을 보장 가능.
  - 왜 이렇게 행동 했는지 해석이 가능.
  - 하지만 모든 상황을 고려하여 reward shaping은 어려움.
Multiple rewards
- 여러 reward function의 결합을 통해 reward hacking을 더 어렵게 만들고 견고하게 만들 수 있음.
- 가령 reward function을 평균화하거나, 최소값을 취하거나, 분위수를 취하거나, 완전히 다른 방식으로 결합하는 방법이 있음. (ensemble 사용, )
- 물론 모든 reward function에 영향을 주는 부정적인 행동이 상관 관계를 가질 수 있음. 즉, reward function의 근본적인 문제를 해결할 순 없음.
  - 근본적인 문제: 모든 상황을 대변할 수 있는 reward function, 즉 세밀한 reward function
  - reward signal을 얼마나 줄 것인가? reward를 어떻게 계산할 것인가?
Reward pretraining
- inverse reinforcement learning과 유사한 방법
- 먼저 reward network를 사전에 학습, 이를 통해 agent를 학습
- 해당 문제는 사전 학습을 통해 얻은 reward network가 더 이상 학습할 수 없게 되어 다른 취약점이 존재. (자세한 것은 6장 참고)
  - 사실상 정적인 reward function이라고 봐도 무방
Trip wires
- 모니터링을 통해 편법을 학습하게 되는 경우 학습을 중단 시키는 방법
- 해당 방법은 모든 경우의 편법을 알 수 없으므로 부분적으로 유용

5. RLHF에서의 reward hacking

Pretrain reward network의 문제점 [6]
- fixed reward network(pretrain reward network)는 reward hacking을 막을 수 없음
- 논문의 결과에 의하면 어떠한 경우도 fixed reward network가 non-fixed reward network 보다 좋은 성능을 보여주지 않음. 즉, agent와 reward 의 공동 훈련이 reward hacking에 본질적인 문제가 되지 않는 것을 시사
- 이는 agent가 reward hacking을 학습할 때 적절한 feedback이 없기 때문, 즉 agent가 reward model를 이해 하였기 때문
- reward hacking을 완화하기 위해선 5장의 Trip wires와 같이 모니터링 후에 이해 해당하는 feedback을 줘야 함
Multiple rewards(ensembling)의 문제점 [7]
- 많은 RLHF 방법론은 하나의 reward model를 학습하는 것이 아닌 다양한 reward model를 동시에 학습하여 ensembling을 통해 reward를 agent에게 배정
- 해당 방법은 reward model과 agent의 일반화를 이끌어 낼 수 있다는 장점 존재
- 하지만 해당 방법으로는 reward hacking을 완화할 뿐 완벽히 reward hacking을 방지할 수 없음.
근본적인 최적화의 문제 [8]
- Network 학습은 최적화 문제와 동일하다.즉, local minima에 빠지게 되는 경우 reward hacking이 발생할 수 있다.

Reference

[1] Defining and Characterizing Reward Hacking

[2] Reward learning from human preferences and demonstrations in Atari

[3] Policy invariance under reward transformations: Theory and application to reward shaping

[4] DL Seminar | Choices, Risks and Reward Reports

[5] Concrete Problems in AI Safety

[6] Reward learning from human preferences and demonstrations in Atari

[7] Helping or Herding? Reward model ensembles mitigate but do not eliminate reward hacking

[8] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

'딩딩기 > RLHF' 카테고리의 다른 글

[RLHF] RLHF는 reward hacking을 완화(mitigate)할 수 있는가? (0)	2024.03.21
[RLHF] Deep Reinforcement Learning from Human Preferences (1)	2024.01.15
[RLHF] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback (1)	2024.01.12

로봇이 아닙니다.당황했습니까? 휴먼

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

로봇이 아닙니다.