티스토리 뷰

작성자 : 한양대학원 인공지능융합학과 유승환 박사과정 (CAI LAB)


논문 링크 : https://arxiv.org/abs/2310.12931

 

Eureka: Human-Level Reward Design via Coding Large Language Models

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this

arxiv.org

홈페이지 링크 : https://eureka-research.github.io/

 

Eureka | Human-Level Reward Design via Coding Large Language Models

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this

eureka-research.github.io

깃헙 링크 : https://github.com/eureka-research/Eureka

 

GitHub - eureka-research/Eureka: Official Repository for "Eureka: Human-Level Reward Design via Coding Large Language Models"

Official Repository for "Eureka: Human-Level Reward Design via Coding Large Language Models" - GitHub - eureka-research/Eureka: Official Repository for "Eureka: Human-Level Reward De...

github.com


Abstract

(1)  로봇 조작 작업 연구의 한계점

  • 대형 언어 모델(Large Language Models, LLMs)의 성과 : sequential decision-making 작업에서 높은 수준의 semantic planners로서 뛰어난 성능을 보여왔음
  • 그러나, LLMs을 활용하여 펜 회전과 같이 복잡한 낮은 수준의 조작 작업을 학습하는 것은 여전히 어려움

(2)  제안하는 아이디어 : Eureka

  • Eureka : LLMs로 구동되는 인간 수준의 보상 디자인 알고리즘
    • GPT-4와 같은 SOTA LLMs의 뛰어난 제로샷 생성, 코드 작성과 맥락 내 개선 능력을  활용하여 보상 코드에 대한 진화적 최적화를 수행
    • 그 결과 얻어진 보상은 강화학습을 통해 복합한 스킬을 습득하는 데 사용될 수 있음
    • Eureka는 전문가가 설계한 보상을 능가하는 보상 함수를 생성함

(3)  Eureka의 성과

  • 10가지 다양한 로봇 형태를 포함한 29가지 오픈 소스 RL 환경에서 Eureka는 83%의 작업에서 인간 전문가들을 능가하며, 평균적으로 52%의 정규화된 개선을 보여줌
  • Eureka의 일반화 능력은 모델 학습 없이 생성된 보상의 품질과 안전성을 향상시키기 위해 인간의 입력을 쉽게 통합하는 새로운 gradient-free in-context learning 접근법을 RLHF(Reinforcement Learning from Human Feedback)으로도 가능하게 함
  • Eurka 보상을 커리큘럼 학습 환경에서 사용하여, 처음으로 시뮬레이션된 Shadow Hand가 빠른 속도로 펜을 능숙하게 조작하며 펜 회전 기술을 수행하는 것을 보여줌
Eurka의 펜 회전 기술 (출처 : https://eureka-research.github.io/)

1. Introduction

(1) LLMs의 Open Problem : LLMs을 로봇의 복잡한 작업 학습에 사용할 수 있을까?

  • LLMs은 로봇 작업에서 높은 수준의 semantic planners로서 뛰어난 성능을 보여왔음
  • 그러나 LLMs을 복잡한 낮은 수준의 조작 작업(e.g. 펜 회전)을 학습하는 데 사용될 수 있는지는 여전히 해결되지 않은 문제임
  • 기존의 시도들의 문제점
    • 작업 프롬포트를 구성하기 위해 상당한 도메인 전문 지식이 필요
    • 단순한 스킬들만 학습하여 인간 수준의 dexterity을 달성하는 데에 상당한 격차를 남겨두고 있음

(2) 강화학습의 Open Problem : Reward Shaping의 어려움

  • 강화학습은 dexterity에서 뛰어난 결과를 보이고 있음
  • 만약 human designers가 원하는 행동에 대한 학습 신호를 정확하게 codify하고 제공하는 보상 함수를 구성할 수 있다면, 다른 많은 분야에서도 놀라운 결과를 보이고 있음
  • real-world RL 작업에서 학습에 어려운 sparse reward를 인정(?)하기 때문에, 점진적으로 학습 신호를 제공하는 reward shaping이 필요
  • 그러나 reward shaping의 중요성에도 불구하고, 보상 함수는 설계하기 매우 어려움
    • 최근에 진행된 설문 조사에 의하면, 강화학습 연구자 중 92%가 manual trial-and-error 보상 함수 설계를 보고하였으며, 89%는 그들이 설계한 보상이 최적이 아니라고도 지적함. 그리고 이는 의도치 않은 행동을 초래하기도 함.

(3) 연구 질문 : GPT-4와 같은 LLMs을 활용하여 보편적인 reward programming algorithm을 개발할 수 있는가?

  • GPT의 코드 작성, 제로샷 생성, 맥락 중심 학습에서의 뛰어난 능력은 이전에 효과적인 programmatic agents를 가능하게 했음
  • 이상적으로, reward programming algorithm은 광범위한 작업 스펙트럼에 확장될 수 있는 인간 수준의 reward generation 능력을 달성해야 함
  • 또한, human supervision 없이 지루한 trial-and-error 절차를 자동화하면서도 안전과 조정을 보장하기 위해 human oversight와 호환되어야 함

(4) 제안하는 방법 : EUREKA

  • EUREKA : Evolution-driven Universal REward Kit for Agent -> 코딩 LLMs으로 구동되는 새로운 보상 설계 알고리즘
  • 기여점 1 : Achieves human-level performance on reward design
    • 29개의 오픈 소스 RL 환경에서 보상 설계에 대한 인간 수준의 성능을 달성
    • 이 환경은 4족 보행 로봇, 쿼드콥터, 이족 보행 로봇, 머니퓰레이터, dexterous hand를 포함한 10가지 다른 로봇 형태를 포함
    • 작업과 관련된 프롬포트나 보상 템플릿 없이, EUREKA는 83%의 작업에서 expert humands rewards을 능가하는 보상을 독립적으로 생성하며, 평균 정규화된 개선을 52% 달성함
  • 기여점 2 : Solves dexterous manipulation tasks that were previously not feasible by manual reward engineering.
    • 수동 보상 엔지니어링으로 이전에 불가능했던 조작 작업을 해결
    • 그 중 펜을 회전시키는 작업을 고려함
    • 여기서 five-finger hand는 가능한 많은 주기 동안 미리 정의된 회전 구성에서 펜을 빠르게 회전시켜야 함
    • EUREKA는 커리큐럼 학습과 결합되어, 시뮬레이션된 인간형 shadow hand에서 처음으로 빠른 펜 회전 기동을 보여줌

펜 회전 시각화 (출처 : 본문)

  • 기여점 3 : Enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF)
    • RLHF를 위한 새로운 gradient-free in-context 학습 접근법을 가능하게 함
    • 이 접근법은 다양한 형태의 인간 입력을 기반으로 더 높은 성능을 발휘하고, 인간에게 조정된 보상 함수를 생성할 수 있음
    • EUREKA가 기존의 인간 보상 함수에서 쉽게 이득을 얻고, 그것을 개선할 수 있음을 보여줌.
    • 마찬가지로 에이전트의 행동에서 미묘한 인간의 선호를 포착하는 보상 함수 디자인을 공동으로 조정하기 위해 인간의 텍스트 피드백을 사용하는 EUREKA의 능력을 보여줌

(5) EUREKA의 핵심

  1. environment source code를 context로 사용 : 환경 소스 코드를 맥락으로 사용함으로써, EUREKA는 backbone coding LLM인 GPT-4에서 실행 가능한 보상 함수를 제로 샷으로 생성할 수 있음
  2. Evolutinoary search : 진화적 검색을 수행하여 보상의 품질을 크게 향상시키며, LLM 맥락 창 내에서 가장 유망한 후보들을 반복적으로 제안하고 정제함. 
  3. Reward reflection : 이러한 맥락 중심 개선은 reward flection을 통해 효과적으로 이루어짐. 이는 policy 학습 통계를 기반으로 한 보상 품질의 텍스트 요약으로, 자동화되고 대상 지향적인 보상 편집을 가능하게 함.
  • 이 외에도 IsaacGym에서의 GPU 가속 분산 강화학습을 사용하여 intermediate 보상을 평가하는데, 이는 정책 학습 속도에서 최대 세 자리의 크기 순서(?)를 제공하며, EUREKA를 더 많이 계산할 수 있는 확장적인 알고리즘으로 만듦
  • 이에 대한 개요는 아래의 그림과 같음

그림 2. EUREKA 시스템 개요 (출처 : 본문)


2. Problem Setting and Deffintions

  • reward design의 목표 : 직접 최적화하기 어려울 수 있는 ground-truth(GT) 보상 함수에 대해 조정된 보상 함수를 반환하는 것
  • 이 GT 보상 함수는 설계자가 질의를 통해서만 접근할 수 있음 (?)
  • 우리는 먼저 Singh et al. (2010) 연구의 공식적 정의를 소개하고, 이를 program synthesis setting에 맞게 조정함. 이를 reward generation이라고 부름.

(1) Definition 2.1

  • reward design problem(RDP)는 다음과 같이 정의됨 : $P = \left \langle M, R, \pi_{M}, F  \right \rangle$
    • $M = \left ( S, A, T \right )$ : world model이라고 부르며, 상태 공간 S, 행동 공간 A, 상태 전이 함수 T로 구성됨 
    • $R$ : 보상 함수 공간
    • $A_{M}(\cdot):R\rightarrow \Pi$ : 정책 $\pi : S \rightarrow \Delta A$ 을 출력하는 학습 알고리즘; 정책은 Markov Decision Process(MDP, $\left ( M,R \right )$)에서 보상 R  $\in R$ 을 최적화 함
    • $F : \Pi \rightarrow \mathbb{R}$ : 정책 질의를 통해서만 접근할 수 있는 스칼라 평가를 모든 정책에 대해 생성하는 적합성(fitness) 함수 (e.g. 적합성 함수를 사용하여 정책을 평가)
    • RDP의 목표 : 보상 R을 최적화하는 정책이 가장 높은 적합성 점수 $F(\pi)$를 달성하도록 보상 함수를 출력하는 것

(2) Reward Generation Probelm

  • 우리의 문제 설정에서, RDP 내의 모든 구성 요소는 코드를 통해 지정됨
  • 그런 다음, 작업을 지정하는 문자열 $I$가 주어지면, 보상 생성 문제의 목표는 $F(A_{M}(R))$가 최대화되도록 보상 함수 코드 R을 출력하는 것

3. Method

3.1 Environment as Context : 실행 가능한 보상의 제로샷 생성을 가능하게 하는 환경을 맥락으로 사용

(1) LLM이 환경 소스 코드를 맥락으로 받아들이는 이유

  • reward design은 LLM에 환경 정보를 제공해야 함
  • 우리는 raw environment code(보상 함수 코드가 있다면 제외)를 맥락(context)으로 직접 제공하는 것을 제안함
  • 즉, LLM은 world model $M$을 맥락으로 받아들이며, 이는 두가지 이유로 직관적임
    • 첫째, 코딩 LLM은 기존 프로그래밍 언어로 작성된 native code에서 학습되었으므로, 그들에게 훈련받은 스타일과 구문에서 구성하도록 직접 허용하면, 코드 생성 능력이 한 층 더 강해질 것으로 예상됨
    • 둘째, 보다 근본적으로, 환경 소스 코드는 일반적으로 환경이 의미론적으로 무엇을 포함하고 있는지와 지정된 작업에 대한 보상 함수를 구성하기 위해 어떤 변수를 사용하고 사용해야 하는지를 보여줌
  • 이러한 통찰력을 활용하여, EUREKA는 코딩 LLM에게 reward design과 formatting tips만을 사용하여 실행 가능한 python 코드를 직접 반환하도록 지시함
    • 예를 들면, dictionary output으로 보상의 개별 구성 요소를 공개하는 것과 같은 팁임
    • 이러한 이유는 3.3절에서 명확해질 것임

(2) EUREKA의 1차 결과물

  • 놀랍게도, 환경의 소스 코드을 활용한 최소한의 지시만으로도 EUREKA는 첫 시도만에 다양한 환경에서 합리적으로 보이는 보상을 즉시 생성할 수 있으며, EUREKA의 출력 예시는 아래 그림 3에서 볼 수 있음. 
  • EUREKA는 제공된 환경 코드 내의 기존 관찰 변수에 능숙하게 구성하고 능력 있는 보상 코드를 생성하며, 이 모든 것이 환경 특정 프롬포트 엔지니어링이나 보상 템플릿 없이 이루어짐
  • 그러나, 첫 시도에 생성된 보상이 항상 실행 가능한 것은 아니며, 실행 가능하더라도 작업 적합성 지표 F에 관해서는 상당히 부족할 수 있음
  • 작업 특정 포매팅과 보상 설계 힌트를 가지고 프롬포트 답변을 개선할 수 있지만, 이렇게 하면 새로운 작업에 대한 확장성이 없어지며, 본 시스템의 전반적인 일반성이 저해됨
  • 연구 질문 : 단일 샘플 보상 생성의 sub-optimality를 어떻게 효과적으로 극복할 수 있을까요?

그림 3. reward reflection을 통한 보상 함수 코드 편집 예시 (출처 : 본문)

3.2 Evolutionary Search : 반복적으로 보상 후보를 제안하고 세밀하게 수정하는 진화 검색

(1) 개요

  • 이번 절에서는 evolutionary search가 앞서 언급한 실행 오류 및 sub-optimality 문제를 어떻게 해결하는지를 보여줄 것임
  • 각 반복에서 EUREKA는 LLM에서 여러 독릭적인 보상 함수의 코드 출력물을 샘플링 함 (아래 수도코드의 5번 라인)
  • 각 리워드 출력물이 독립 동일 분포(i.i.d)이기 때문에, 샘플 수가 증가함에 따라 한 반복에서 모든 보상 함수의 코드가 오류를 포함할 확률이 지수적으로 감소
  • 우리가 고려하는 모든 환경에서 단지 소량의 보상 함수의 코드를 샘플링(16개)하더라도, 첫 번째 반복에서 적어도 하나의 실행 가능한 보상 코드가 포함되어 있다는 것을 발견함

(2) Evolutionary Search 방법론

  • 이전 반복에서 실행 가능한 보상 함수의 코드를 제공하면, EUREKA는 in-context 변이를 수행하여 기존의 것을 기반으로 새롭고 개선된 보상 함수를 제안함. 
  • LLM의 instruction-following과 in-context 개선 능력을 고려할 때, EUREKA는 정책 학습의 텍스트 요약을 기반으로 기존 보상 코드를 수정하는 몇 가지 일반적인 방법을 제안하는 텍스트 프롬포트로 변이 연산자를 지정함으로써 이를 달성함 (구체적인건 3.3절 참고)
  • 몇 가지 보상 수정 예시는 위 그림 3에 시각화되어 있음. 
  • 변이를 통해 새로운 EUREKA 반복은 이전 반복에서 가장 잘 수행된 보상을 context로 취하고 LLM에서 K개의 더 많은 독립 동일 분포(i.i.d) 보상 함수의 코드 출력을 생성함
  • 이 반복적 최적화는 지정된 반복 횟수에 도달할 때 까지 계속됨
  • 마지막으로, 더 나은 global solution을 찾기 위해 여러 random restarts을 수행
  • 이것은 초기 추측이 잘못될 수 있으므로, 전역 최적화에서의 표준 전략임
  • 모든 실험에서 EUREKA는 환경 당 5회 독립 실행을 수행하며, 각 실행마다 K=16 샘플 당 5번의 반복으로 search를 진행

EUREKA 수도 코드 (출처 : 본문)

3.3 Reward Reflection : 미세한 보상 개선을 가능하게 하는 보상 반영

(1) 개요

  • 문맥 내 보상 변이를 구체화하기 위해, 생성된 보상의 품질을 '단어'로 전달할 수 있어야 함
  • 우리는 정책에 대한 작업 적합성 함수 F를 조회할 수 있기 때문에, 단순한 전략은 이 숫자 점수를 보상 평가로 제공하는 것임
  • holistic ground-truth metric(?)으로서의 역할을 하는 동안, 작업 적합성 함수 자체는 credit assignment에서 부족하며, 보상 함수가 왜 작동하는지 또는 작동하지 않는지에 대한 유용한 정보를 제공하지 않음
  • 보상에 대해 더 정교하고 특정한 진단을 제공하기 위해, policy training dynamics를 텍스트로 요약하는 자동 피드백을 구성하는 것을 제안함
  • 구체적으로, EUREKA 보상 함수는 보상 프로그램 내의 개별 구성 요소를 공개하도록 요청받았을 때(e.g. 그림 3의 reward_components), 학습 중간에 정책 체크 포인트에서 모든 보상 구성 요소의 스칼라 값을 추적
  • 예를 들어, 그림 2에서의 설명적 예를 고려하면, av_penalty 변수의 snapshot 값이 보상 피드백에 목록으로 제공됨.

(1) Reward Reflection의 중요성

  • 이러한 보상 반영 절차는 간단하게 구성되었지만, 보상 최적화 알고리즘의 의존적 특성 때문에 중요함
  • 즉 보상 함수의 효과성은 RL 알고리즘의 특정 선택에 의해 영향 받고, 동일한 최적화 도구를 사용하더라도 하이퍼 파라미터의 차이로 인해 동일한 보상이 매우 다르게 수행될 수 있음
  • RL 알고리즘이 개별 보상 구성 요소를 얼마나 잘 최적화하는지에 대한 자세한 설명을 제공함으로써, 보상 반영은 EUREKA에게 더욱 특정적인 보상 편집을 생성하고 고정된 RL 알고리즘과 더 잘 조화되는 보상 함수를 합성하는 능력을 제공함

4. Experiments

(1) Environments

  • LLM 백본 : GPT-4 (gpt-4-0314)
  • 10대의 로봇과 29개의 작업 환경이 있음

실험 환경 개요 (출처 : 본문)

4.1 Baselines

(1) L2R

  • 템블릿된 보상을 생성하기 위해 2 단계의 LLM-prompting 솔루션을 제안함
    • 자연어로 지정된 환경과 작업에 대해 첫 번째 LLM은 에이전트의 움직임을 설명하는 자연어 템플릿을 작성하도록 요청 받음
    • 그 다음, 두 번째 LLM은 이 "motion description"을 코드로 변환하여 수동으로 정의된 일련의 보상 API 기본 항목을 호출하여 그들의 매개 변수를 설정하는 보상 프로그램을 작성하도록 요청받음 
  • EUREKA와 일관성 있게, 환경 당 5회 독립적인 L2R을 수행하고, 각 실행에 대해 16개의 보상 함수의 코드 샘플을 생성

(2) Human

  • 본 실험에 사용한 벤치마크 작업에서 제공된 원래의 shaped된 보상 함수
  • 이 보상 함수들은 작업을 설계한 강화학습 연구자들에 의해 작성되었기 때문에, 이 함수들은 전문가 수준의 인간 보상 엔지니어링 링의 결과를 나타냄

(3) Sparse

  • 이는 작업 적합성 함수 F와 동일하며, Human과 마찬가지로 벤치마크에 의해 제공됨
  • Dexterity 작업에서는 일관되게 이진 지표 함수로 작업의 성공을 측정함
  • Isaac 작업에서는 작업의 성격에 따라 함수의 형태가 다름
  • 자세한 메트릭 설명은 부록 B를 참고.

4.2 Training Details

(1) Policy Learning

  • 각 작업에 대해 모든 최종 보상 함수는 동일한 RL 알고리즘을 사용하여 동일한 하이퍼파라미터 세트로 최적화
  • Isaac과 Dexterity는 well-tuned PPO implementation을 공유하고, 이 구현과 작업 특정 PPO 하이퍼 파라미터를 아무런 수정 없이 사용
  • 이러한 작업 특정 하이퍼 파라미터는 공식적인 human-engineered 보상이 잘 작동하도록 조정됨
  • 각 보상에 대해, 5개의 독립적인 PPO 학습을 실행하고, 보상의 성능으로써 정책 체크 포인트에 의해 달성된 최대 작업 메트릭스 값의 평균을 기록함. 

(2) Reward Evaluation Metrics

  • Isaac 작업의 경우, 각 작업 메트릭 F의 의미와 규모가 다양하기 때문에, EUREKA와 L2R에 대한 인간 정규화 점수를 기록함.
    • $\frac{method-sparse}{|human-sparse|}$
    • 이 매트릭은 EUREKA 보상이 ground-truth task metric에 대한 인간 전문가 보상에 어떻게 대응하는지에 대한 전체적인 측정치를 제공
  • Dexterity의 경우 모든 작업이 이진 성공 함수를 사용하여 평가되므로, 성공률을 직접 기록

4.3 Results

(1) EUREKA outperforms human rewards

  • Issac 작업 (우측 그래프)
    • EUREKA가 모든 isaac 작업에서 인간 수준을 초과하거나 동일한 수준으로 수행함
    • L2R은 CartPole, BallBalance와 같이 행동 차원 낮은 작업들에서는 괜찮은 성능이 나오지만, 고차원의 작업들에서는 성능이 크게 뒤쳐짐
  • Dexterity 작업 (좌측 그래프)
    • EUREKA가 20개 중 15개의 작업에서 인간 수준을 초과하거나 동일한 수준으로 수행 (구체적 결과는 부록 E 참고) 
  • 종합적 결과 분석
    • L2R의 표현력 부족은 그 성능을 심각하게 제한함
    • 반대로 EUREKA는 어떠한 도메인 특정 지식 없이 스크래치로 자유 형식의 보상을 생성하고 훨씬 더 나은 성과를 달성함

Dexterity 및 Isaac 작업에 대한 EUREKA, L2R, Human, Sparse의 성능 (출처 : 본문)

(2) EUREKA consistenly improves over time

  • 아래의 그래프를 보면, EUREKA의 성능은 지속적으로 향상됨
  • 추가적인 베이스라인 : EUREKA without Evolution (32 Samples)
    • 초기 보상 생성 단계만 수행하고 원래 EUREKA의 두 반복에서와 동일한 수의 보상 함수 코드를 샘플링함
    • 이 연구는 고정된 수의 보상 함수만을 가지고 EUREKA 진화를 수행하는 것이 더 유리한지, 아니면 반복적인 개선 없이 처음 시도하는 보상을 더 많이 샘플링하는 것이 더 유리한지 파악하기 위한 것.
  • 결과 분석 : EUREKA가 초기 성능이 낮더라도, 2번째 반복부터 Eureka w.o Evolution의 성능을 뛰어 넘음. 즉, EUREKA의 진화 최적화가 그 최종 성능에 있어서 필수적인 것을 보여줌

학습 횟수에 따른 EUREKA의 성능 변화 (출처 : 본문)

(3) EUREKA generates novel rewards

  • 모든 Isaac 작업에 대해 EUREKA와 Human 보상 간의 상관 관계를 계산하여 EUREKA 보상의 novelty를 평가함 (자세한 절차는 부록 B 참고)
  • human normalized scores에 대한 reward correlation을 산점도 형식으로 아래의 그래프에 표기함
  • 각 점은 하나의 작업에 대한 EUREKA 보상을 나타냄
  • 가설 : 인간의 보상이 어려운 작업에 대해 최적에 가깝지 않을 가능성이 높아, EUREKA 보상이 더 나을 수 있는 여지를 더 많이 남겨둔다는 가설을 세움
  •  몇몇 경우에는 EUREKA 보상이 인간의 보상과 부정적으로 상관되어 있지만(상관계수 음수인 점들), 훨씬 더 뛰어난 성능을 보여주고 있음
  • 이는 EUREKA가 인간의 직관과는 반대로 작동할 수 있는 새로운 보상 설계의 원칙을 발견할 수 있음을 보여줌

(4) Reward reflection enables targeted imporvement

  • 보상 피드백 과정에서 reward reflection의 중요성을 평가하기 위해, 추가적인 베이스라인인 'EUREKA (No Reward Reflection)'을 평가함
  • 이는 작업 메트릭 F의 스냅샷 값만 포함하도록 보상 피드백 프롬포트를 줄임
  • 모든 Isaac 작업에 대한 평균으로,  'EUREKA (No Reward Reflection)'은 평균 정규화 점수를 28.6% 감소시킴. (자세한 결과는 부록 E 참고)
  • 즉, 보상 피드백 과정에서 reward reflection이 중요한 것을 알 수 있음.

(5) EUREKA with curriculum learning enables dexterous pen spinning

  • 마지막 테스트 환경 : 펜 돌리기 (pen spinning)
  • 일반적인 방식으로는 학습이 안되며(빨간색 그래프, 주황색 그래프), 고급 정책 학습 접근 방법(커리큐럼 러닝, Fine-tuning  등)을 적용해야 성능이 향상되는 것을 볼 수 있음 (파란색 그래프)

(출처 : 본문)

4.4 Eureka From Human Feedback

(1) EUREKA can improve and benefit from human reward functions

  • human reward function initialization이 포함되면 성능이 증가하지만, 이것이 포함되지 않아도 EUREKA는 인간보다 높은 성능을 낼 수 있음.

(2) Reward reflection via human feedback induces aligned behavior

  • EUREKA를 보강하여 인간이 원하는 행동과 수정에 대한 보상 반영을 단어로 표현하는 것을 제안함
  • 20명의 비숙련자들에게 두 정책의 비디오 중 선호하는 것을 지정하도록 수행하며, 이를 반영한 것이 EUREKA-HF
  • 아래의 표 1을 보면 EUREKA-HF 에이전트는 속도를 희생하였지만, 사람의 선호는 증가한 것을 볼 수 있음
  • 아래의 그림 9에서 인간의 피드백 후 EUREKA가 학습한 행동의 진화를 보여줌

표1 (출처 : 본문)
그림 9 (출처 : 본문)


6. Conclusion

  • large language 모델과 in-context 진화 검색을 기반으로 한 보상 설계 알고리즘인 EUREKA를 제안
  • 작업 특정 프롬포트 엔지니어링이나 인간의 개입 없이, EUREKA는 다양한 로봇과 작업에서 인간 수준의 보상 생성을 달성함
  • EUREKA는 학습에서 특정한 강점을 통해 커리큘럼 학습 접근법으로 dexterous pen spinning 문제를 해결함
  • 마지막으로, EUREKA는 인간의 피드백으로부터 강화학습을 위한 gradient-free approach를 가능하게 하며, 인간의 보상 초기화와 텍스트 피드백을 쉽게 통합하여 보상 생성을 더 잘 조절할 수 있도록 함.
  • EUREKA의 다양성과 상당한 성능 향상은 대형 언어 모델과 진화 알고리즘의 결합이라는 단순한 원칙이 보상 설계에 대한 일반적이고 확장 가능한 접근법임을 제안하며, 이러한 통찰력은 어려운, 개방형 검색 문제에 일반적으로 적용될 수 있음

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31