강화학습 논문 정리 11편 : Eureka: Human-Level Reward Design via Coding Large Language Models 논문 리뷰 (arXiv 2023)

티스토리 뷰

sinanju06/딥러닝 논문 리뷰

강화학습 논문 정리 11편 : Eureka: Human-Level Reward Design via Coding Large Language Models 논문 리뷰 (arXiv 2023)

hanyangrobot 2023. 10. 31. 21:20

작성자 : 한양대학원 인공지능융합학과 유승환 박사과정 (CAI LAB)

논문 링크 : https://arxiv.org/abs/2310.12931

Eureka: Human-Level Reward Design via Coding Large Language Models

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this

arxiv.org

홈페이지 링크 : https://eureka-research.github.io/

Eureka | Human-Level Reward Design via Coding Large Language Models

eureka-research.github.io

깃헙 링크 : https://github.com/eureka-research/Eureka

GitHub - eureka-research/Eureka: Official Repository for "Eureka: Human-Level Reward Design via Coding Large Language Models"

Official Repository for "Eureka: Human-Level Reward Design via Coding Large Language Models" - GitHub - eureka-research/Eureka: Official Repository for "Eureka: Human-Level Reward De...

github.com

Abstract

(1) 로봇 조작 작업 연구의 한계점

대형 언어 모델(Large Language Models, LLMs)의 성과 : sequential decision-making 작업에서 높은 수준의 semantic planners로서 뛰어난 성능을 보여왔음
그러나, LLMs을 활용하여 펜 회전과 같이 복잡한 낮은 수준의 조작 작업을 학습하는 것은 여전히 어려움

(2) 제안하는 아이디어 : Eureka

Eureka : LLMs로 구동되는 인간 수준의 보상 디자인 알고리즘
- GPT-4와 같은 SOTA LLMs의 뛰어난 제로샷 생성, 코드 작성과 맥락 내 개선 능력을 활용하여 보상 코드에 대한 진화적 최적화를 수행
- 그 결과 얻어진 보상은 강화학습을 통해 복합한 스킬을 습득하는 데 사용될 수 있음
- Eureka는 전문가가 설계한 보상을 능가하는 보상 함수를 생성함

(3) Eureka의 성과

10가지 다양한 로봇 형태를 포함한 29가지 오픈 소스 RL 환경에서 Eureka는 83%의 작업에서 인간 전문가들을 능가하며, 평균적으로 52%의 정규화된 개선을 보여줌
Eureka의 일반화 능력은 모델 학습 없이 생성된 보상의 품질과 안전성을 향상시키기 위해 인간의 입력을 쉽게 통합하는 새로운 gradient-free in-context learning 접근법을 RLHF(Reinforcement Learning from Human Feedback)으로도 가능하게 함
Eurka 보상을 커리큘럼 학습 환경에서 사용하여, 처음으로 시뮬레이션된 Shadow Hand가 빠른 속도로 펜을 능숙하게 조작하며 펜 회전 기술을 수행하는 것을 보여줌

Eurka의 펜 회전 기술 (출처 : https://eureka-research.github.io/)

1. Introduction

(1) LLMs의 Open Problem : LLMs을 로봇의 복잡한 작업 학습에 사용할 수 있을까?

LLMs은 로봇 작업에서 높은 수준의 semantic planners로서 뛰어난 성능을 보여왔음
그러나 LLMs을 복잡한 낮은 수준의 조작 작업(e.g. 펜 회전)을 학습하는 데 사용될 수 있는지는 여전히 해결되지 않은 문제임
기존의 시도들의 문제점
- 작업 프롬포트를 구성하기 위해 상당한 도메인 전문 지식이 필요
- 단순한 스킬들만 학습하여 인간 수준의 dexterity을 달성하는 데에 상당한 격차를 남겨두고 있음

(2) 강화학습의 Open Problem : Reward Shaping의 어려움

강화학습은 dexterity에서 뛰어난 결과를 보이고 있음
만약 human designers가 원하는 행동에 대한 학습 신호를 정확하게 codify하고 제공하는 보상 함수를 구성할 수 있다면, 다른 많은 분야에서도 놀라운 결과를 보이고 있음
real-world RL 작업에서 학습에 어려운 sparse reward를 인정(?)하기 때문에, 점진적으로 학습 신호를 제공하는 reward shaping이 필요함
그러나 reward shaping의 중요성에도 불구하고, 보상 함수는 설계하기 매우 어려움
- 최근에 진행된 설문 조사에 의하면, 강화학습 연구자 중 92%가 manual trial-and-error 보상 함수 설계를 보고하였으며, 89%는 그들이 설계한 보상이 최적이 아니라고도 지적함. 그리고 이는 의도치 않은 행동을 초래하기도 함.

(3) 연구 질문 : GPT-4와 같은 LLMs을 활용하여 보편적인 reward programming algorithm을 개발할 수 있는가?

GPT의 코드 작성, 제로샷 생성, 맥락 중심 학습에서의 뛰어난 능력은 이전에 효과적인 programmatic agents를 가능하게 했음
이상적으로, reward programming algorithm은 광범위한 작업 스펙트럼에 확장될 수 있는 인간 수준의 reward generation 능력을 달성해야 함
또한, human supervision 없이 지루한 trial-and-error 절차를 자동화하면서도 안전과 조정을 보장하기 위해 human oversight와 호환되어야 함

(4) 제안하는 방법 : EUREKA

EUREKA : Evolution-driven Universal REward Kit for Agent -> 코딩 LLMs으로 구동되는 새로운 보상 설계 알고리즘
기여점 1 : Achieves human-level performance on reward design
- 29개의 오픈 소스 RL 환경에서 보상 설계에 대한 인간 수준의 성능을 달성
- 이 환경은 4족 보행 로봇, 쿼드콥터, 이족 보행 로봇, 머니퓰레이터, dexterous hand를 포함한 10가지 다른 로봇 형태를 포함
- 작업과 관련된 프롬포트나 보상 템플릿 없이, EUREKA는 83%의 작업에서 expert humands rewards을 능가하는 보상을 독립적으로 생성하며, 평균 정규화된 개선을 52% 달성함
기여점 2 : Solves dexterous manipulation tasks that were previously not feasible by manual reward engineering.
- 수동 보상 엔지니어링으로 이전에 불가능했던 조작 작업을 해결
- 그 중 펜을 회전시키는 작업을 고려함
- 여기서 five-finger hand는 가능한 많은 주기 동안 미리 정의된 회전 구성에서 펜을 빠르게 회전시켜야 함
- EUREKA는 커리큐럼 학습과 결합되어, 시뮬레이션된 인간형 shadow hand에서 처음으로 빠른 펜 회전 기동을 보여줌

기여점 3 : Enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF)
- RLHF를 위한 새로운 gradient-free in-context 학습 접근법을 가능하게 함
- 이 접근법은 다양한 형태의 인간 입력을 기반으로 더 높은 성능을 발휘하고, 인간에게 조정된 보상 함수를 생성할 수 있음
- EUREKA가 기존의 인간 보상 함수에서 쉽게 이득을 얻고, 그것을 개선할 수 있음을 보여줌.
- 마찬가지로 에이전트의 행동에서 미묘한 인간의 선호를 포착하는 보상 함수 디자인을 공동으로 조정하기 위해 인간의 텍스트 피드백을 사용하는 EUREKA의 능력을 보여줌

(5) EUREKA의 핵심

environment source code를 context로 사용 : 환경 소스 코드를 맥락으로 사용함으로써, EUREKA는 backbone coding LLM인 GPT-4에서 실행 가능한 보상 함수를 제로 샷으로 생성할 수 있음
Evolutinoary search : 진화적 검색을 수행하여 보상의 품질을 크게 향상시키며, LLM 맥락 창 내에서 가장 유망한 후보들을 반복적으로 제안하고 정제함.
Reward reflection : 이러한 맥락 중심 개선은 reward flection을 통해 효과적으로 이루어짐. 이는 policy 학습 통계를 기반으로 한 보상 품질의 텍스트 요약으로, 자동화되고 대상 지향적인 보상 편집을 가능하게 함.

이 외에도 IsaacGym에서의 GPU 가속 분산 강화학습을 사용하여 intermediate 보상을 평가하는데, 이는 정책 학습 속도에서 최대 세 자리의 크기 순서(?)를 제공하며, EUREKA를 더 많이 계산할 수 있는 확장적인 알고리즘으로 만듦
이에 대한 개요는 아래의 그림과 같음

2. Problem Setting and Deffintions

reward design의 목표 : 직접 최적화하기 어려울 수 있는 ground-truth(GT) 보상 함수에 대해 조정된 보상 함수를 반환하는 것
이 GT 보상 함수는 설계자가 질의를 통해서만 접근할 수 있음 (?)
우리는 먼저 Singh et al. (2010) 연구의 공식적 정의를 소개하고, 이를 program synthesis setting에 맞게 조정함. 이를 reward generation이라고 부름.

(1) Definition 2.1

reward design problem(RDP)는 다음과 같이 정의됨 : $P = \left \langle M, R, \pi_{M}, F \right \rangle$
- $M = \left ( S, A, T \right )$ : world model이라고 부르며, 상태 공간 S, 행동 공간 A, 상태 전이 함수 T로 구성됨
- $R$ : 보상 함수 공간
- $A_{M}(\cdot):R\rightarrow \Pi$ : 정책 $\pi : S \rightarrow \Delta A$ 을 출력하는 학습 알고리즘; 정책은 Markov Decision Process(MDP, $\left ( M,R \right )$ )에서 보상 R $\in R$ 을 최적화 함
- $F : \Pi \rightarrow \mathbb{R}$ : 정책 질의를 통해서만 접근할 수 있는 스칼라 평가를 모든 정책에 대해 생성하는 적합성(fitness) 함수 (e.g. 적합성 함수를 사용하여 정책을 평가)
- RDP의 목표 : 보상 R을 최적화하는 정책이 가장 높은 적합성 점수 $F(\pi)$ 를 달성하도록 보상 함수를 출력하는 것

(2) Reward Generation Probelm

우리의 문제 설정에서, RDP 내의 모든 구성 요소는 코드를 통해 지정됨
그런 다음, 작업을 지정하는 문자열 $I$ 가 주어지면, 보상 생성 문제의 목표는 $F(A_{M}(R))$ 가 최대화되도록 보상 함수 코드 R을 출력하는 것

3. Method

3.1 Environment as Context : 실행 가능한 보상의 제로샷 생성을 가능하게 하는 환경을 맥락으로 사용

(1) LLM이 환경 소스 코드를 맥락으로 받아들이는 이유

reward design은 LLM에 환경 정보를 제공해야 함
우리는 raw environment code(보상 함수 코드가 있다면 제외)를 맥락(context)으로 직접 제공하는 것을 제안함
즉, LLM은 world model $M$ 을 맥락으로 받아들이며, 이는 두가지 이유로 직관적임
- 첫째, 코딩 LLM은 기존 프로그래밍 언어로 작성된 native code에서 학습되었으므로, 그들에게 훈련받은 스타일과 구문에서 구성하도록 직접 허용하면, 코드 생성 능력이 한 층 더 강해질 것으로 예상됨
- 둘째, 보다 근본적으로, 환경 소스 코드는 일반적으로 환경이 의미론적으로 무엇을 포함하고 있는지와 지정된 작업에 대한 보상 함수를 구성하기 위해 어떤 변수를 사용하고 사용해야 하는지를 보여줌
이러한 통찰력을 활용하여, EUREKA는 코딩 LLM에게 reward design과 formatting tips만을 사용하여 실행 가능한 python 코드를 직접 반환하도록 지시함
- 예를 들면, dictionary output으로 보상의 개별 구성 요소를 공개하는 것과 같은 팁임
- 이러한 이유는 3.3절에서 명확해질 것임

(2) EUREKA의 1차 결과물

놀랍게도, 환경의 소스 코드을 활용한 최소한의 지시만으로도 EUREKA는 첫 시도만에 다양한 환경에서 합리적으로 보이는 보상을 즉시 생성할 수 있으며, EUREKA의 출력 예시는 아래 그림 3에서 볼 수 있음.
EUREKA는 제공된 환경 코드 내의 기존 관찰 변수에 능숙하게 구성하고 능력 있는 보상 코드를 생성하며, 이 모든 것이 환경 특정 프롬포트 엔지니어링이나 보상 템플릿 없이 이루어짐
그러나, 첫 시도에 생성된 보상이 항상 실행 가능한 것은 아니며, 실행 가능하더라도 작업 적합성 지표 F에 관해서는 상당히 부족할 수 있음
작업 특정 포매팅과 보상 설계 힌트를 가지고 프롬포트 답변을 개선할 수 있지만, 이렇게 하면 새로운 작업에 대한 확장성이 없어지며, 본 시스템의 전반적인 일반성이 저해됨
연구 질문 : 단일 샘플 보상 생성의 sub-optimality를 어떻게 효과적으로 극복할 수 있을까요?

그림 3. reward reflection을 통한 보상 함수 코드 편집 예시 (출처 : 본문)

3.2 Evolutionary Search : 반복적으로 보상 후보를 제안하고 세밀하게 수정하는 진화 검색

(1) 개요

이번 절에서는 evolutionary search가 앞서 언급한 실행 오류 및 sub-optimality 문제를 어떻게 해결하는지를 보여줄 것임
각 반복에서 EUREKA는 LLM에서 여러 독릭적인 보상 함수의 코드 출력물을 샘플링 함 (아래 수도코드의 5번 라인)
각 리워드 출력물이 독립 동일 분포(i.i.d)이기 때문에, 샘플 수가 증가함에 따라 한 반복에서 모든 보상 함수의 코드가 오류를 포함할 확률이 지수적으로 감소함
우리가 고려하는 모든 환경에서 단지 소량의 보상 함수의 코드를 샘플링(16개)하더라도, 첫 번째 반복에서 적어도 하나의 실행 가능한 보상 코드가 포함되어 있다는 것을 발견함

(2) Evolutionary Search 방법론

이전 반복에서 실행 가능한 보상 함수의 코드를 제공하면, EUREKA는 in-context 변이를 수행하여 기존의 것을 기반으로 새롭고 개선된 보상 함수를 제안함.
LLM의 instruction-following과 in-context 개선 능력을 고려할 때, EUREKA는 정책 학습의 텍스트 요약을 기반으로 기존 보상 코드를 수정하는 몇 가지 일반적인 방법을 제안하는 텍스트 프롬포트로 변이 연산자를 지정함으로써 이를 달성함 (구체적인건 3.3절 참고)
몇 가지 보상 수정 예시는 위 그림 3에 시각화되어 있음.
변이를 통해 새로운 EUREKA 반복은 이전 반복에서 가장 잘 수행된 보상을 context로 취하고 LLM에서 K개의 더 많은 독립 동일 분포(i.i.d) 보상 함수의 코드 출력을 생성함
이 반복적 최적화는 지정된 반복 횟수에 도달할 때 까지 계속됨
마지막으로, 더 나은 global solution을 찾기 위해 여러 random restarts을 수행함
이것은 초기 추측이 잘못될 수 있으므로, 전역 최적화에서의 표준 전략임
모든 실험에서 EUREKA는 환경 당 5회 독립 실행을 수행하며, 각 실행마다 K=16 샘플 당 5번의 반복으로 search를 진행

3.3 Reward Reflection : 미세한 보상 개선을 가능하게 하는 보상 반영

(1) 개요

문맥 내 보상 변이를 구체화하기 위해, 생성된 보상의 품질을 '단어'로 전달할 수 있어야 함
우리는 정책에 대한 작업 적합성 함수 F를 조회할 수 있기 때문에, 단순한 전략은 이 숫자 점수를 보상 평가로 제공하는 것임
holistic ground-truth metric(?)으로서의 역할을 하는 동안, 작업 적합성 함수 자체는 credit assignment에서 부족하며, 보상 함수가 왜 작동하는지 또는 작동하지 않는지에 대한 유용한 정보를 제공하지 않음
보상에 대해 더 정교하고 특정한 진단을 제공하기 위해, policy training dynamics를 텍스트로 요약하는 자동 피드백을 구성하는 것을 제안함
구체적으로, EUREKA 보상 함수는 보상 프로그램 내의 개별 구성 요소를 공개하도록 요청받았을 때(e.g. 그림 3의 reward_components), 학습 중간에 정책 체크 포인트에서 모든 보상 구성 요소의 스칼라 값을 추적함
예를 들어, 그림 2에서의 설명적 예를 고려하면, av_penalty 변수의 snapshot 값이 보상 피드백에 목록으로 제공됨.

(1) Reward Reflection의 중요성

이러한 보상 반영 절차는 간단하게 구성되었지만, 보상 최적화 알고리즘의 의존적 특성 때문에 중요함
즉 보상 함수의 효과성은 RL 알고리즘의 특정 선택에 의해 영향 받고, 동일한 최적화 도구를 사용하더라도 하이퍼 파라미터의 차이로 인해 동일한 보상이 매우 다르게 수행될 수 있음
RL 알고리즘이 개별 보상 구성 요소를 얼마나 잘 최적화하는지에 대한 자세한 설명을 제공함으로써, 보상 반영은 EUREKA에게 더욱 특정적인 보상 편집을 생성하고 고정된 RL 알고리즘과 더 잘 조화되는 보상 함수를 합성하는 능력을 제공함

4. Experiments

(1) Environments

LLM 백본 : GPT-4 (gpt-4-0314)
10대의 로봇과 29개의 작업 환경이 있음

4.1 Baselines

(1) L2R

템블릿된 보상을 생성하기 위해 2 단계의 LLM-prompting 솔루션을 제안함
- 자연어로 지정된 환경과 작업에 대해 첫 번째 LLM은 에이전트의 움직임을 설명하는 자연어 템플릿을 작성하도록 요청 받음
- 그 다음, 두 번째 LLM은 이 "motion description"을 코드로 변환하여 수동으로 정의된 일련의 보상 API 기본 항목을 호출하여 그들의 매개 변수를 설정하는 보상 프로그램을 작성하도록 요청받음
EUREKA와 일관성 있게, 환경 당 5회 독립적인 L2R을 수행하고, 각 실행에 대해 16개의 보상 함수의 코드 샘플을 생성함

(2) Human

본 실험에 사용한 벤치마크 작업에서 제공된 원래의 shaped된 보상 함수
이 보상 함수들은 작업을 설계한 강화학습 연구자들에 의해 작성되었기 때문에, 이 함수들은 전문가 수준의 인간 보상 엔지니어링 링의 결과를 나타냄

(3) Sparse

이는 작업 적합성 함수 F와 동일하며, Human과 마찬가지로 벤치마크에 의해 제공됨
Dexterity 작업에서는 일관되게 이진 지표 함수로 작업의 성공을 측정함
Isaac 작업에서는 작업의 성격에 따라 함수의 형태가 다름
자세한 메트릭 설명은 부록 B를 참고.

4.2 Training Details

(1) Policy Learning

각 작업에 대해 모든 최종 보상 함수는 동일한 RL 알고리즘을 사용하여 동일한 하이퍼파라미터 세트로 최적화됨
Isaac과 Dexterity는 well-tuned PPO implementation을 공유하고, 이 구현과 작업 특정 PPO 하이퍼 파라미터를 아무런 수정 없이 사용함
이러한 작업 특정 하이퍼 파라미터는 공식적인 human-engineered 보상이 잘 작동하도록 조정됨
각 보상에 대해, 5개의 독립적인 PPO 학습을 실행하고, 보상의 성능으로써 정책 체크 포인트에 의해 달성된 최대 작업 메트릭스 값의 평균을 기록함.

(2) Reward Evaluation Metrics

Isaac 작업의 경우, 각 작업 메트릭 F의 의미와 규모가 다양하기 때문에, EUREKA와 L2R에 대한 인간 정규화 점수를 기록함.
- $\frac{method-sparse}{|human-sparse|}$
- 이 매트릭은 EUREKA 보상이 ground-truth task metric에 대한 인간 전문가 보상에 어떻게 대응하는지에 대한 전체적인 측정치를 제공
Dexterity의 경우 모든 작업이 이진 성공 함수를 사용하여 평가되므로, 성공률을 직접 기록

4.3 Results

(1) EUREKA outperforms human rewards

Issac 작업 (우측 그래프)
- EUREKA가 모든 isaac 작업에서 인간 수준을 초과하거나 동일한 수준으로 수행함
- L2R은 CartPole, BallBalance와 같이 행동 차원 낮은 작업들에서는 괜찮은 성능이 나오지만, 고차원의 작업들에서는 성능이 크게 뒤쳐짐
Dexterity 작업 (좌측 그래프)
- EUREKA가 20개 중 15개의 작업에서 인간 수준을 초과하거나 동일한 수준으로 수행 (구체적 결과는 부록 E 참고)
종합적 결과 분석
- L2R의 표현력 부족은 그 성능을 심각하게 제한함
- 반대로 EUREKA는 어떠한 도메인 특정 지식 없이 스크래치로 자유 형식의 보상을 생성하고 훨씬 더 나은 성과를 달성함

Dexterity 및 Isaac 작업에 대한 EUREKA, L2R, Human, Sparse의 성능 (출처 : 본문)

(2) EUREKA consistenly improves over time

아래의 그래프를 보면, EUREKA의 성능은 지속적으로 향상됨
추가적인 베이스라인 : EUREKA without Evolution (32 Samples)
- 초기 보상 생성 단계만 수행하고 원래 EUREKA의 두 반복에서와 동일한 수의 보상 함수 코드를 샘플링함
- 이 연구는 고정된 수의 보상 함수만을 가지고 EUREKA 진화를 수행하는 것이 더 유리한지, 아니면 반복적인 개선 없이 처음 시도하는 보상을 더 많이 샘플링하는 것이 더 유리한지 파악하기 위한 것.
결과 분석 : EUREKA가 초기 성능이 낮더라도, 2번째 반복부터 Eureka w.o Evolution의 성능을 뛰어 넘음. 즉, EUREKA의 진화 최적화가 그 최종 성능에 있어서 필수적인 것을 보여줌

(3) EUREKA generates novel rewards

모든 Isaac 작업에 대해 EUREKA와 Human 보상 간의 상관 관계를 계산하여 EUREKA 보상의 novelty를 평가함 (자세한 절차는 부록 B 참고)
human normalized scores에 대한 reward correlation을 산점도 형식으로 아래의 그래프에 표기함
각 점은 하나의 작업에 대한 EUREKA 보상을 나타냄
가설 : 인간의 보상이 어려운 작업에 대해 최적에 가깝지 않을 가능성이 높아, EUREKA 보상이 더 나을 수 있는 여지를 더 많이 남겨둔다는 가설을 세움
몇몇 경우에는 EUREKA 보상이 인간의 보상과 부정적으로 상관되어 있지만(상관계수 음수인 점들), 훨씬 더 뛰어난 성능을 보여주고 있음
이는 EUREKA가 인간의 직관과는 반대로 작동할 수 있는 새로운 보상 설계의 원칙을 발견할 수 있음을 보여줌

(4) Reward reflection enables targeted imporvement

보상 피드백 과정에서 reward reflection의 중요성을 평가하기 위해, 추가적인 베이스라인인 'EUREKA (No Reward Reflection)'을 평가함
이는 작업 메트릭 F의 스냅샷 값만 포함하도록 보상 피드백 프롬포트를 줄임
모든 Isaac 작업에 대한 평균으로, 'EUREKA (No Reward Reflection)'은 평균 정규화 점수를 28.6% 감소시킴. (자세한 결과는 부록 E 참고)
즉, 보상 피드백 과정에서 reward reflection이 중요한 것을 알 수 있음.

(5) EUREKA with curriculum learning enables dexterous pen spinning

마지막 테스트 환경 : 펜 돌리기 (pen spinning)
일반적인 방식으로는 학습이 안되며(빨간색 그래프, 주황색 그래프), 고급 정책 학습 접근 방법(커리큐럼 러닝, Fine-tuning 등)을 적용해야 성능이 향상되는 것을 볼 수 있음 (파란색 그래프)

4.4 Eureka From Human Feedback

(1) EUREKA can improve and benefit from human reward functions

human reward function initialization이 포함되면 성능이 증가하지만, 이것이 포함되지 않아도 EUREKA는 인간보다 높은 성능을 낼 수 있음.

(2) Reward reflection via human feedback induces aligned behavior

EUREKA를 보강하여 인간이 원하는 행동과 수정에 대한 보상 반영을 단어로 표현하는 것을 제안함
20명의 비숙련자들에게 두 정책의 비디오 중 선호하는 것을 지정하도록 수행하며, 이를 반영한 것이 EUREKA-HF
아래의 표 1을 보면 EUREKA-HF 에이전트는 속도를 희생하였지만, 사람의 선호는 증가한 것을 볼 수 있음
아래의 그림 9에서 인간의 피드백 후 EUREKA가 학습한 행동의 진화를 보여줌

6. Conclusion

large language 모델과 in-context 진화 검색을 기반으로 한 보상 설계 알고리즘인 EUREKA를 제안
작업 특정 프롬포트 엔지니어링이나 인간의 개입 없이, EUREKA는 다양한 로봇과 작업에서 인간 수준의 보상 생성을 달성함
EUREKA는 학습에서 특정한 강점을 통해 커리큘럼 학습 접근법으로 dexterous pen spinning 문제를 해결함
마지막으로, EUREKA는 인간의 피드백으로부터 강화학습을 위한 gradient-free approach를 가능하게 하며, 인간의 보상 초기화와 텍스트 피드백을 쉽게 통합하여 보상 생성을 더 잘 조절할 수 있도록 함.
EUREKA의 다양성과 상당한 성능 향상은 대형 언어 모델과 진화 알고리즘의 결합이라는 단순한 원칙이 보상 설계에 대한 일반적이고 확장 가능한 접근법임을 제안하며, 이러한 통찰력은 어려운, 개방형 검색 문제에 일반적으로 적용될 수 있음

'sinanju06 > 딥러닝 논문 리뷰' 카테고리의 다른 글

강화학습 논문 정리 13편 : Skill Preferences : Learning to Extract and Execute Robot Skills from Human Feedback 논문 리뷰 (CoRL 2021) (0)	2023.11.14
강화학습 논문 정리 12편 : An Optimistic Perspective on Offline Reinforcement Learning 논문 리뷰 (ICML 2020) (0)	2023.11.14
강화학습 논문 정리 10편 : A workflow for Offline Model-Free Robotic Reinforcement Learning 논문 리뷰 (CoRL 2022) (2)	2023.10.24
강화학습 논문 정리 9편 : DR3 : Value-Based Deep Reinforcement Learning Requires Explicit Regularization 논문 리뷰 (ICLR 2022) (6)	2023.09.17
강화학습 논문 정리 8편 : Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics : a Survey 논문 리뷰 (4)	2022.03.09

로봇이 아닙니다.당황했습니까? 휴먼

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

티스토리 뷰