Reference: arxiv.org/pdf/1507.06527.pdf COMA 구현을 하다가 RNN을 포함하는 agent 업데이트를 해야해서 가장 기본적이라고 하는 DRQN을 구현 해봄. Code github.com/keep9oing/DRQN-Pytorch-CartPole-v1 keep9oing/DRQN-Pytorch-CartPole-v1 Deep recurrent Q learning on CartPole-v1 environment - keep9oing/DRQN-Pytorch-CartPole-v1 github.com 에러 제보 환영입니다. :) POMDP (partially observable MDP) 대부분의 강화학습 문제는 MDP로 문제를 정의하고 최대 objective(reward, entropy..
며칠전부터 Policy gradient 알고리즘들 밑바닥부터 짜는 중에 A3C 개발하며 느낀점들 1. 구현체 github.com/keep9oing/PG-Family keep9oing/PG-Family Basic PG Reinforcement algorithms. Contribute to keep9oing/PG-Family development by creating an account on GitHub. github.com 2. multi processing A3C를 구현하려면 멀티 프로세싱을 해야했는데, 뭐 어떻게 하는지 전혀 몰라서 python 의 multi processing packag관련 튜토리얼을 먼저 봐야했다. 2-1) 튜토리얼 docs.python.org/ko/3/library/multipr..
Trail following and obstacle avoidance from 민재 정 [시물레이션] [실험 영상] 항공우주 가을 학회 발표자료, 길 추적(Trail following)에는 CNN기반 지도학습을, 장애물 회피(Obstacle avoidance)에는 D3QN기반 강화학습을 적용하여 두가지 러닝 기법을 합쳐 하나의 local planner로 만들어보려는 시도였다. 시뮬레이션은 PX4 SITL을 사용하고 Gazebo에서 검증했다. 실험은 Jetson Xavier를 메인 연산장치로 사용하고 비행제어는 Pixhawk4와 PX4를 사용했다. 한동안 애먹였던 과제인데, 드디어 완료. 부끄러운 결과물이지만 오히려 그렇기에 기록한다.
ddpg seminar from 민재 정 두번째 세미나 자료, 역시나 슬라이드 쉐어는 화질이 깨지는데 괜찮은 슬라이드 공유 툴이 있으면 좋을 것 같다. 아니면 안깨지는 방법이 있는지.. 오늘 슬라이드느 Deep deterministic policy gradient기법에 관한 자료, 논문 리뷰는 아니라 이 카테고리에 딱 맞지는 않지만 원 논문을 많이 참고 했기때문에 이곳에 업로드. 간단히 DDPG는 연속적인 action spaces에 대한 고려를 하기 위한 actor-ciric, model-free, off-policy 기법이다.
[논문] https://arxiv.org/pdf/1611.03673.pdf [영상] 딥마인드의 논문. 영상기반의 네비게이션에 대한 새로운 심층강화학습 기법 제안과 분석이다. 제목이나 저자가 흥미로워서 읽었지만 introduction과 approach만 읽는게 나을것같아서 실험결과와 분석부분은 표만 참고하여 읽었다. 네비게이션 문제에서 항상 언급되는것이 agent가 센서만을 통해 주행을 한다고하면 주변 환경이 빠르게 바뀌면 거기에 대처하기 힘들다는 것이다. RL의경우 reward가 sparse해지고 기본적으로 네비게이션에는 3가지 계층의 메모리가 필요한데(one shot: goal position, short term memory: observation, long term memory: boundary, ..