
Imitation Bootstrapped Reinforcement Learning저자 : Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh논문 : https://arxiv.org/abs/2311.02198작성 : 이해구, gpt il은 확실히 샘플링 효율이 좋다. 그래서 특정 테스크를 로봇에게 학습 시킬때 실제로 RL보다 잘 작동하는데, 당연하게도 소위 말하는 "전문가의 작업 데이터"를 모으는 게 힘들다. 따라서 il은 근본적인 확장성 문제를 가지게 된다. 비슷한 작업이라도 약간만 달라지면 fine 튜닝이 필요하게 된다. 이를 해결하기 위해 RL에서 IL 을 효율적인 자율 향상 방법으로 사용할 수 있다면 매우 좋은 프레임워크가 된다. 논문에서는 모방학습 부트스트랩 RL..
미니멀공대생/Control
2025. 3. 21. 19:34