티스토리 뷰

https://www.youtube.com/watch?v=mf9w6pz_tfQ

요약

  • Reward hacking 이란?
    • agent가 편법과 같은 의도하지 않은 방법을 통해 목표 달성 방법을 학습하는 것
  • Reward hacking의 원인은?
    • 학습 목표에 대해 구체적이지 못한 reward shaping과 agent의 근본적인 목표인 return maximizing으로 인해 발생
  • Reward hacking을 해결하기 위한 방법은?
    • reward function 대신 non-fixed reward network을 사용
  • RLHF(reinforcement learning from human feedback)에서의 Reward hacking
    • pretrain reward model 보다 학습 가능한 reward model이 reward hacking을 완화할 수 있음.
    • ensembling 기법을 사용해도 reward hacking을 완화할 뿐 완벽히 제거하기 어려움
  • Reward hacking 최종 정리
    • agent의 근본적인 본능인 return을 최대화 하는 전략으로부터 기인하는 문제가 reward hacking
    • 해당 문제를 완화하기 위해선 계속해서 feedback을 줄 수 있는 학습 가능한 reward network를 사용해야 함 (e.g. RLHF)
    • 결국 reward hacking을 완벽히 없애는 방법은 open problem임을 알 수 있음.

Reward hacking이란 무엇인가?

1. Reward hacking 정의

  • [1] 에 따르면, 불안전한 proxy reward function $\hat R$ 을 최적화 하는 현상
    • true reward function R 에 비해서 agent의 성능이 낮아짐
  • 좀 더 정리하면, 가끔 agent가 의도하지 않은 행동을 reward를 통해서 착취하는 것을 학습하는 경우[2]
    • [3] 에 따르면, bugs라고 할 수 있고 이는 agent가 편법을 통해서 학습하는 경우
    • [Figure 1]과 같이 agent가 maze map에서 목표 지점을 가는 경우, reward hacking (bugs)가 발생하게 되면, reward 설계자가 의도하지 않은 행동을 통해 return을 최대화하는 현상[Figure 1] refer from [4]

2. 그렇다면, agent 입장에선 해당 reward hacking을 인지할 수 있는가?

  • [5]에 따르면, agent는 reward hacking을 인지 불가능. 즉, bugs로 받아드리지 않고 return 을 최대화 하는 하나의 전략으로 생각.

3. Reward hacking은 왜 발생하는가? [5]

  • Partially observed goals
    • 최근 RL 시스템은 reward가 경험을 통해서 취득한다고 가정. 즉, (경험): state→ action → reward
      • 위 가정은 심지어 POMDP의 상황에서도 적용
    • POMDP에 적용된 가정은 RL의 목적을 타락
      • 현실 세계에서 MDP가 적용되는 상황은 많지 않기 때문에 많은 RL 시스템은 POMDP를 기반
      • 그러나 해당 기반은 agent가 얼마나 작업을 진행했는지에 대한 해석이 떨어짐.
      • 가령 방 전체를 청소하는 것을 목적으로 하는 로봇의 경우, 로봇의 센서로 인해 부분적 관측이 되는데, 해당 로봇이 방 전체를 얼마나 청소했는지는 현재 상태를 가지고 완벽하게 평가할 수 없는 상황이 존재
      • 위 예시와 같이 POMDP에선 reward shaping은 부분적이거나 불완전하게 진행되어 reward hacking을 방지할 수 없음.
  • Complicated system
    • 코드의 복잡성이 증가할 수록 bug가 발생할 확률이 높이지는 것과 동일하게, RL 시스템의 복잡할 수록 reward hacking이 발생할 확률이 높아짐.
  • Abstract rewards
    • 고차원 공간 상의 학습된 reward function은 적어도 하나의 차원을 따라 병적으로 높은 값이 있다면 해킹의 취약점이 될 수 있음.
  • Goodhart’s law
    • Goodhart’s law는 경제학에서 나온 개념
    • 학생의 학업 성적이 학습을 촉진하도록 장려하는 목적의 경우, 이때 학생이 단순히 성적을 얻기 위해 학습하게 된다면, 즉 벼락치기를 하게 된다면, 학생의 지식과 이해를 증진시키는 데 도움이 되지 못하는 방향으로 작용하는 것.
    • 간단하게 이야기하면, 의도한 바와 다른 편법을 통해 목적을 달성하는 것을 의미. 즉, 특정 조건의 상관관계(학생의 지식과 성적)가 무너지는 것을 의미.
    • RL 시스템 입장에선, agent가 목표를 달성하기 위해 편법을 사용하여 목표를 달성하는 것.
  • Feedback loops
    • Goodhart’s law의 특수한 경우로, 일시적인 편법이 계속해서 착취되어 가장 좋은 방법으로 인식되는 경우.
    • 학생이 목표가 학업 성적이 아닌 벼락치기 자체를 목표로 삼게 되며, 결과적으로 벼락치기가 강조되어 실제로는 학습의 질이 떨어지는 것.
    • RL 시스템의 입장에선, agent가 작업의 목표, 즉 goal에 도달하는 것이 아닌 return을 최대화 하는 것을 목표로 학습하게 되는 것.
  • Environmental embedding
    • reward signal은 environment로부터 agent에게 제공하여, agent는 reward를 최대한 높게 제공받는 방법을 찾아냄
    • 간단하게 이야기해서 편법을 찾아낼 수 있다는 것.
    • 이러한 문제는 해결하기 어려움

4. Reward hacking을 방지하기 위한 방법들 [5]

  • Adversarial reward functions
    • 일반적인 RL 시스템에서 reward functions 는 정적인 객체이다. 즉, reward functions는 조건에 따라 reward signal를 다르게 뿜어낼 뿐, 상황에 따른 유동적인 reward signal이 아님
    • 이러한 경우 agent는 편법을 통해서 return을 최대화 하는 전략을 구사
    • 해당 문제를 해결하기 위해선, reward function이 정적인 객체가 아닌 유동적인 객체. 
    • adversarial reward function은 human in the loop 중 reward model을 학습하는 active learning 방법론을 의미.
      • 참고로 active learning은 인간이 학습 중간 중간마다 preference와 같이 feedback을 제공하는 학습 방법
  • Adversarial blinding
    • adversarial 기법을 통해 agent가 특정 변수를 무시하도록 만듦
    • 즉, agent가 reward가 어떻게 생성되는지 이해하는 것을 방해하여 reward hacking을 어렵게 만듦
  • Careful engineering
    • 세밀한 reward shaping을 통해 reward hacking을 해결하는 것 (해당 방법은 reward network를 사용하지 않음)
    • 본 방법은 모든 상황을 고려할 순 없지만, agent의 합리적인 행동을 보장 가능.
      • 왜 이렇게 행동 했는지 해석이 가능.
      • 하지만 모든 상황을 고려하여 reward shaping은 어려움.
  • Multiple rewards
    • 여러 reward function의 결합을 통해 reward hacking을 더 어렵게 만들고 견고하게 만들 수 있음.
    • 가령 reward function을 평균화하거나, 최소값을 취하거나, 분위수를 취하거나, 완전히 다른 방식으로 결합하는 방법이 있음. (ensemble 사용, )
    • 물론 모든 reward function에 영향을 주는 부정적인 행동이 상관 관계를 가질 수 있음. 즉, reward function의 근본적인 문제를 해결할 순 없음.
      • 근본적인 문제: 모든 상황을 대변할 수 있는 reward function, 즉 세밀한 reward function
      • reward signal을 얼마나 줄 것인가? reward를 어떻게 계산할 것인가?
  • Reward pretraining
    • inverse reinforcement learning과 유사한 방법
    • 먼저 reward network를 사전에 학습, 이를 통해 agent를 학습
    • 해당 문제는 사전 학습을 통해 얻은 reward network가 더 이상 학습할 수 없게 되어 다른 취약점이 존재. (자세한 것은 6장 참고)
      • 사실상 정적인 reward function이라고 봐도 무방
  • Trip wires
    • 모니터링을 통해 편법을 학습하게 되는 경우 학습을 중단 시키는 방법
    • 해당 방법은 모든 경우의 편법을 알 수 없으므로 부분적으로 유용

5. RLHF에서의 reward hacking

  • Pretrain reward network의 문제점 [6]
    • fixed reward network(pretrain reward network)는 reward hacking을 막을 수 없음
    • 논문의 결과에 의하면 어떠한 경우도 fixed reward network가 non-fixed reward network 보다 좋은 성능을 보여주지 않음. 즉, agent와 reward 의 공동 훈련이 reward hacking에 본질적인 문제가 되지 않는 것을 시사
    • 이는 agent가 reward hacking을 학습할 때 적절한 feedback이 없기 때문, 즉 agent가 reward model를 이해 하였기 때문
    • reward hacking을 완화하기 위해선 5장의 Trip wires와 같이 모니터링 후에 이해 해당하는 feedback을 줘야 함
  • Multiple rewards(ensembling)의 문제점 [7]
    • 많은 RLHF 방법론은 하나의 reward model를 학습하는 것이 아닌 다양한 reward model를 동시에 학습하여 ensembling을 통해 reward를 agent에게 배정
    • 해당 방법은 reward model과 agent의 일반화를 이끌어 낼 수 있다는 장점 존재
    • 하지만 해당 방법으로는 reward hacking을 완화할 뿐 완벽히 reward hacking을 방지할 수 없음.
  • 근본적인 최적화의 문제 [8]
    • Network 학습은 최적화 문제와 동일하다.즉, local minima에 빠지게 되는 경우 reward hacking이 발생할 수 있다.

Reference

[1] Defining and Characterizing Reward Hacking

[2] Reward learning from human preferences and demonstrations in Atari

[3] Policy invariance under reward transformations: Theory and application to reward shaping

[4] DL Seminar | Choices, Risks and Reward Reports

[5] Concrete Problems in AI Safety

[6] Reward learning from human preferences and demonstrations in Atari

[7] Helping or Herding? Reward model ensembles mitigate but do not eliminate reward hacking

[8] Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30