티스토리 뷰

editor, Junyeob Baek
Robotics & ML Research Engineer / RL, Motion Planning and Control, SLAM, Vision

Linkedin Badge Github Badge


관련 포스팅


0. Prologue

    딥러닝 분야를 공부하다보면 continual learning 또는 life-long learning이라는 이야기를 들어본 적이 있을 것이다.

그리고 잘 모르겠지만 지속 가능한 학습, 계속 학습하는것(?) 정도로 이해하면 되는 개념인가보다 하고 넘어갔다면,

이 글을 통해 조금이라도 해당 분야에 대한 인사이트를 얻어갈 수 있는 시간이 될 수 있길 바란다.

 

    인공지능을 연구하는 사람들에게 지속 가능한 학습은 범용지능(AGI)을 만들기 위한 끝판왕 같은 존재이다.

영화 '채피'에서 갓 태어난 로봇 채피는 돌봐주는 사람들을 보고 자라며 잘못된 행동과 윤리를 배우고 그에 따라 행동한다.

기초 지능부터 행동 방식, 윤리, 생각 전 범위로의 학습이 지속적으로 진행되어 자체적인 지능의 확장으로 이어지는 것이다.

물론 SF영화이긴 하지만 어떻게 이런 일이 가능한 것일까? 실제로도 이런 것들이 가능할까?

 

그에 대한 대답은 아래 글을 통해 Continual Learning에 대해 이해하고 함께 토론해보았으면 좋겠다.


1. Continual Learning

continual learning이란 ..

  1. 끊임없이 흘러나오는 데이터의 흐름(continuous stream of information)으로부터 지속적으로 학습하고
  2. 또한 기존에 학습한 것들에 대한 망각(catastrophic forgetting)을 방지할 수 있는

학습 시스템(biological or artificial)을 의미한다.

 

continual learning model의 목표는 다음과 같은 생물학적 시스템에서의 대표적인 몇 가지 특성에서 기인하였다.

the ability to acquire, fine-tune, and transfer knowledge and skills throughout a lifespan.

 

  1. 오랜 시간에 걸쳐
  2. 지식과 기술을 습득하고
  3. 상황에 따라 정교하게 조절할 수 있으며
  4. 다른 모델 또는 연관된 다른 task에 대해 기존의 지식과 기술을 전달 및 활용한다

   그동안 딥러닝과 머신러닝의 눈부신 발전이 지속되고 있음에도 불구하고, 이 분야에서의 SOTA(State-of-the-art)조차 생물학적 시스템의 유연함, 강건함, 확장성을 따라가려면 한참 멀었다. 최근까지의 대부분 continual learning model 연구들은 아직도 단순한 classification문제에서의 catastrophic forgetting을 줄이는데에 초점을 두고있기 때문이다.

참고 -- 현 시점에서의 Continual Learning에 대한 연구 동향 -> references [1], [2] 참고

 

   해당 글에서는 최근 continual learning의 종류나 이론들에 초점을 맞추기보다는 continual learning의 개념과 가능성. 그리고 더 나아가 autonomous agents, robots등에 적용하기 위해 해결해야만 하는 문제의 측면에서 바라보려 한다.

특히 기존에 잘 정립되어있는 생물학적 학습 요소(biological learning factors)들

 

  • developmental and curriculum learning,
  • transfer learning,
  • intrinsic motivation etc.

을 참고해 복잡하고 어려운 지식과 기술의 지속적이고 점진적인 습득을 어떻게 computational modeling해 나갈것인가에 대해 고민해보도록 하자.

 


2. Developmental and Curriculum Learning

   인간 등의 고등 생물들은 보통 그들의 생애동안 내내 학습할 수 있는 특별한 능력을 보인다. 그리고 종들에 비해 성숙해지기까지의 발달과정(developmental process)이 아주 긴 편이다. 특히 발달과정 중 유아기(infants)는 그들의 경험에 의한 민감도가 높은 기간인데, 보통 이 기간을 critical period라 부른다.

 

   이 기간(critical period)동안 뇌는 plastic하고 신경망은 감각운동 경험(sensorimotor experience)에 의해 중요한 구조를 형성하게 되며, 이후에는 가소성(plasticity) 요소의 활동이 점점 국소적으로 진행되며 지능 시스템은 점점 안정화되고 수행할수 있는 작업의 복잡도와 정교함이 높아진다.

neuroplasticity : 신경가소성이라 불리며 신경가소성(神經可塑性, neuroplasticity)은 성장과 재조직을 통해 뇌가 스스로 신경 회로를 바꾸는 능력이다

 

   Developmental Learning 전략은 그동안 실제 환경에서의 embodied interaction을 제어(정규화)하기 위해 자주 제안되었던 방식이다. 데이터의 배치를 한번에 학습시키는 기존의 computational model과 달리 developmental agent는 스스로 감각-운동경험으로부터 점점 복잡한 task의 skill-set을 얻어나가며, 결과적으로 별도의 가이드나 지시 없이 인지적 능력에 대한 발전을 가속화하기 위해서는 필수적인 단계로서 꼽힌다.

 

   하지만 인공지능의 학습시스템에 이러한 developmental starategies를 적용하기에는 현실적으로 여러움이 도사리고 있다. 예를 들어, 완전히 자동화 된 agent가 아주 dynamic한 환경 속에서 높은 학습효과를 가지는 development stage를 스스로 선택하기가 너무 어렵기 때문이다.(개인적으로 인간도 마찬가지라고 생각한다)

 

(과연 학교에서 제공하는 교육과정이 없다면 어떤 것들을 먼저 공부해야하는지 우리 스스로 깨달을 수 있었을까?)

-> Task Selection Problem

 

   최근엔 이에 착안하여 robotics분야와 machine learning분야에서도 curriculum learning이라는 이름으로 학습의 퍼포먼스 측면에서의 효과에 대해 연구되고 있다.

 

   Curriculum Learning에서 주로 다루는 task selection problem은 학습효과의 최대화하기 위해 최적의 task를 골라야 하는 stochastic policy로 해결될 수 있어 보인다. 이때 모델의 충분한 exploration(탐험)을 권장하기 위해 reward signal로서 learning progress에 대한 지표를 만들게 되는데, 그 지표로서 Intrinsic Motivation이라는 개념이 등장한다.

 

   그리고 Curriculum 전략은 초기 task에 대한 학습모델이 추후에 수행할 더욱 정교한 task에 대한 학습을 어느정도 가이드할 수 있다는 점에서 Transfer Learning의 특수한 케이스에 해당한다.

 

Curriculum Learning과 그 외 biological learning factor들에 대한 이해를 돕기 위해 아래 글을 주의 깊게 읽어보자.


3. Transfer Learning

   transfer learning은 이전에 한가지 도메인에서 습득한 지식을 다른 새로운 도메인의 문제를 해결하기위한 접근법이다. 조금더 구체적으로 이야기 하자면, forward transfer란 Task A가 미래의 Task B의 성능에 영향을 주는 것을 의미하며, backward transfer란 현재의 Task B가 이전의 Task A의 성능에 영향을 주는 것을 의미한다.

 

   특정 task의 성능을 향상시키는 동시에 multi-task learning이 가능하다면, transfer learning은 artificial system에서 아주 중요한 의미를 지니게 된다. 한정된(특정 도메인에서의) 데이터 샘플로부터 일반적인 규칙을 추론할 수 있는 가능성이 있기 때문이다.

 

   machine learning과 autonomous agents 분야에서 transfer learning은 여전히 수많은 도전과제를 지니고 있다. 아직까지 high-level transfer learning에 대한 이해도는 현저히 낮은 편이지만, 축약된 형태의 지식(objects, scene, individuals 등에 대한 관계성 정보)의 전달에 있어서는 어느정도 성과를 얻어내고 있다.

 

   Zero-shot learning, one-shot learning 등의 노력이 대표적으로 (기존의 지식기반을 가진채로) 새로운 태스크에 대한 성능이 우수한 반면 기존에 학습된 task들에 대해서 catastrophic forgetting이 일어나는 것을 방지할 수 있도록 연구중인 분야이며, 최근에는 Gradient Episodic Memory(GEM)과 같은 모델이 등장해 catastrophic forgetting을 제거하며 기존의 task에대해 positive transfer를 수행할 수 있도록 하였다.

추가. Zero-shot learning 및 one-shot learning 등은 기존의 classification 학습 방식으로는 새로운 class에 대해 구분하려면 너무 많은 데이터를 요구한다는 단점을 해결하기 위해 새로운 것을 학습하는 방법을 학습하는 일종의 meta learning(learning to learn) 개념 중 하나이다.

추가. GEM 모델은 distributions 혹은 tasks의 관계성을 학습해 task descriptor가 주어지지 않아도 기존의 task중 어떤 task인지 혹은 새로운 task인지 구분하는 것이 가능하다.


4. Curiosity and Intrinsic Motivation

   Intrinsic Motivation의 computational 모델은 유아기의 인간이 그들의 목표를 스스로 설정하고 빠르게 skill들을 습득해나가는 것에 착안해 고안되었다. 그리고 이렇게 빠르게 습득한 여러가지 skill들은 초기 developmental structure를 형성하는데에 중요한 기여를 한다.

   유아기의 인간은 탐험을 통한 경험적 과정들을 통해 내적 학습보상을 최대화하는 방향의 경험을 선택한다. 내적 동기에 의한 탐험(intrinsically motivated exploration)은 유아기의 인간에서와 같이 developmental structure를 스스로 조직할 수 있도록 이끌며, 이때 습득한 다양한 지식과 기술은 점차 매우 복합적인 구조를 지닐 수 있게 된다.

 

   이러한 intrinsic motivation에 대한 computational model은 스스로 학습 커리큘럼을 실시간으로 생성함으로써 데이터를 수집하고 점진적으로 기술을 익힐 수 있도록 만들어준다. 즉, 실시간 제어의 복잡도가 점점 커지는 방향으로 학습할 수 있도록 task를 선택할 수 있다는 것이다.

참고. 개인적으로 요즘 가장 관심있어하는 분야로 관련 논문과 영상으로 부가설명하겠습니다!

   최근에는 강화학습 분야에서도 curiosity와 intrinsic motivation의 개념을 적용해 sparse reward scenario를 다루고자 하는 노력들이 이어지고 있다. 희소한 extrinsic reward만으로 이루어진 환경에서의 curiosity-driven exploration은 agent가 점차적으로 복잡한 task를 구사할 수 있도록 intrinsic reward signal을 만들어줄 수 있기 때문이다.


5. Conclusion(정리)

   프롤로그에서도 언급하였듯이 Continual Learning 분야는 Artificial Learning System과 실제 세계에서의 Autonomous Agent(Robots)를 위해서 아주 중요하지만 아주 challenging해 앞으로 해결해나가야 할 문제가 많아보인다. 그리고 이를 위해 인간지능(고도화된 생물학적 지능)의 학습에 있어서 중요한 몇가지 요소를 알아보았다.

 

   지능발달에 있어서 Critical Period이라 불리는 기간에는 다중신경망의 구조와 초기의 연결 패턴(developmental structure)을 형성하는 중요한 시기이다. 이때 유망한 curriculum을 고르는 것(curriculum learning)과 transfer learning새로운 domain의 문제를 해결하기 위해 기존의 지식과 기술들을 재사용할 수 있다는 점에서 특히 기본적이고 중요한 개념들이다.

 

   intrinsic motivation 개념을 이용한 접근법 역시 스스로 목표를 생성, 설정할 수 있으며 이것이 실질적인 exploration 과정을 이끌어내고 또한 점진적으로 복잡한 기술들에 대해 얻어내는데에 아주 중요한 역할을 한다는 것에 의의가 있다.


이번 포스팅에서는 기본적으로 continual learning이라는 분야에서 다루고 있는 문제들이 무엇인지 간단히 살펴보았으며, 생물학적 학습 시스템으로부터 continual learning 문제에 대한 힌트가 될수도 있는 다양한 개념들을 살펴보았다.다음 포스팅에서는 continual learning문제가 정확이 무엇이고 autonomous agent(robots)의 계속적 학습을 위해 겪고있는 어려움들, 해결해야할 문제들에 대해 더욱 자세히 알아볼 예정이다.

To be Continued...


이 글은 논문 "Rethinking continual learning for autonomous agents and robots, Parisi, German I"의 내용을 기반으로 작성되었으며 인사이트 및 추가자료 등이 첨부되어 재구성되었습니다.

 

References

[1] Parisi, German I., and Christopher Kanan. "Rethinking continual learning for autonomous agents and robots." *arXiv preprint arXiv:1907.01929* (2019).

[2] Lesort, Timothée, et al. "Continual learning for robotics: Definition, framework, learning strategies, opportunities and challenges." *Information fusion* 58 (2020): 52-68.

[3] Wang, Rui, et al. "Paired open-ended trailblazer (poet): Endlessly generating increasingly complex and diverse learning environments and their solutions." *arXiv preprint arXiv:1901.01753* (2019).

[3] Forestier, Sébastien, et al. "Intrinsically motivated goal exploration processes with automatic curriculum learning." *arXiv preprint arXiv:1708.02190* (2017).

 


관련 포스팅


'whitebot > Continual Learning' 카테고리의 다른 글

Continual Learning for Robotics(2)  (7) 2021.07.31
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30