티스토리 뷰

[논문]

https://arxiv.org/pdf/1611.03673.pdf

[영상]

 


딥마인드의 논문. 영상기반의 네비게이션에 대한 새로운 심층강화학습 기법 제안과 분석이다.

 

제목이나 저자가 흥미로워서 읽었지만 introduction과 approach만 읽는게 나을것같아서 실험결과와 분석부분은 표만 참고하여 읽었다.

 

네비게이션 문제에서 항상 언급되는것이 agent가 센서만을 통해 주행을 한다고하면 주변 환경이 빠르게 바뀌면 거기에 대처하기 힘들다는 것이다. RL의경우 reward가 sparse해지고 기본적으로 네비게이션에는 3가지 계층의 메모리가 필요한데(one shot: goal position, short term memory: observation, long term memory: boundary, cue) 이부분을 내재적으로 표현할 방법에 대해서도 생각해야한다.

 

그럼 구조문제를 해결했다치고 데이터 효율성을 더 높여줄 방법을 생각해보면, 기존의 RL알고리즘들은 상태입력에 대한 표현보다는 상태에 대한 value가 어떤지를 계속해서 추정하는데,, 문제는 이 value라는것이 상황에 따라 non-stationary하기도 하고 variance가 상당히 크다는 특징이 있다. 이를 잡아주려는 많은 노력들이 존재하고 이번 논문도 그 노력들중 하나로 보인다.

 

이걸 해결하려고 만든가정은 아주 흥미로운데 만약 네트워크가 reward를 최대화 하려고만 하지않고, depth 추정이나 loop closing같은 것들에 대한 loss도 함께 최소화 하도록 업데이트한다면 영상에 대해 더 좋은 representation을 동시에 학습하고 그 효과로 더 빨리 reward의 수렴과 성능향상을 만들어 낼 수 있을 것이라는 것이다. 참신한 아이디어라고 생각했지만 related work를 보면 아예 없는 아이디어는 아니었다.

 

그럼 이분들이 고안한 네트워크 구조를 보자

꽤나 괴랄한 형식으로 보여지는데 메모리에 관련된 부분은 lstm으로, d1,d2는 깊이 추정에대한 loss, L은 루프클로징에대한 손실을 뜻한다. 

 

그럼 실험 결과를 바로 보자.

재밌게도 대부분의 경우 고안한 모든 방법(D1,D2,L)을 적용한 것 보단 depth추정에 대한 손실함수만을 포함한 것이 더 좋은 성능을 보인다. 이 시점에서 아마 저자도 방법론의 우수함보다는 방법론의 분석으로 논문방향을 맞추지 않았을까 하는 생각이 든다.

 

이것 저것 분석을 엄청 해둔 논문이지만 이 정도 방법론이 있었다는 점 외에는 딱히 더 궁금했던게 없어서 여기까지만 읽었다. 다음에 관련해서 더 흥미가 생기거나 특별히 참고 할만할 일이생각나면 정독할 의향이 큰 논문.

 


#

depth추정에 대해서 전처리를 하는 방법이 상당히 clever했던 점, tSNE 그림에대한 이야기들이 건질 점이었다. tSNE는 항상 리포트나 논문에 그런 그림을 넣고싶었는데 뭔지를 몰라서 그냥 와 잘그렸다 라고만 생각하고 있었다.

 

#

딥마인드 논문의 좋은점은 항상 appendix를 자세하게 달아주는것이다. reproducible한 논문은 언제나 소장할 가치가 있다고 생각한다. 언젠가 그리고 언제나 구현에 도움을 주기 때문이다.

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31