ddpg seminar from 민재 정 두번째 세미나 자료, 역시나 슬라이드 쉐어는 화질이 깨지는데 괜찮은 슬라이드 공유 툴이 있으면 좋을 것 같다. 아니면 안깨지는 방법이 있는지.. 오늘 슬라이드느 Deep deterministic policy gradient기법에 관한 자료, 논문 리뷰는 아니라 이 카테고리에 딱 맞지는 않지만 원 논문을 많이 참고 했기때문에 이곳에 업로드. 간단히 DDPG는 연속적인 action spaces에 대한 고려를 하기 위한 actor-ciric, model-free, off-policy 기법이다.
keras만 사용하다가 pytorch를 사용할 때 autograd를 사용하는 것이 익숙하지 않아서 고역이다. pytorch에서는 tensor에 대한 자동미분을 loss.backward()같은 기능을 이용해서 해주게 되는데 supervised learning같은 신경망을 학습할때에는 그렇게 신경쓰지않고 예제에 있는대로 가져다 써도 괜찮았다. 그러나 신경망 업데이트 타이밍이 알고리즘마다 제각각인 강화학습을 사용할때 autograd에 대한 이해를 잘해놓지 않으니 코딩할 때마다 매번 혼란에 빠진다. 오늘은 헷갈려서 시간을 쓴부분에 대한 정리. Pytorch를 이용한 REINFORCE 알고리즘을 구현할때 손실함수를 아래처럼 정의하고 써야했다. $$ loss = -\sum_{t=0}^{T}(log \pi (u_{t..

[논문] https://arxiv.org/pdf/1611.03673.pdf [영상] 딥마인드의 논문. 영상기반의 네비게이션에 대한 새로운 심층강화학습 기법 제안과 분석이다. 제목이나 저자가 흥미로워서 읽었지만 introduction과 approach만 읽는게 나을것같아서 실험결과와 분석부분은 표만 참고하여 읽었다. 네비게이션 문제에서 항상 언급되는것이 agent가 센서만을 통해 주행을 한다고하면 주변 환경이 빠르게 바뀌면 거기에 대처하기 힘들다는 것이다. RL의경우 reward가 sparse해지고 기본적으로 네비게이션에는 3가지 계층의 메모리가 필요한데(one shot: goal position, short term memory: observation, long term memory: boundary, ..

# 요즘 자주 읽는 논문들이 대체로 로봇 주변의 상황을 LSTM같은 신경망으로 인코딩 한 후에 그 latent space에서 강화학습을 하게되는 방식을 사용하는 것들이었다. 나는 왜 raw 데이터를 바로 쓰지않고 encoding 과정을 거치는지, 그리고 그게 어떻게 상황을 encoding 할 수 있는 것인지에 대해 잘 와닿지 않았는데, CS 285의 Model based learning에 관한 강의를 들으면서 많은 이해를 할 수 있었다. state encoding이 필요한 이유를 처음부터 설명하려면 강의 전체를 완전히 복기해도 모자를 정도로 길어지고, 강의 정리를 위한 시리즈는 현재 준비 중이기 때문에 오늘 포스팅은 결론적인 측면, 그리고 추상적 이해 관점에서 많이 서술하게 될 것 이다. 해당 강의가 궁..