요즘 Machine learning with graph (CS224W) 강의 리뷰를 어느 분들이 감사하게 해주어서 보고있다. 오늘은 Spectral clustering에 대해 읽었는데, 처음 소개하는 알고리즘이 간단하게 보이기도 하고 networkx도 계속 연습할 겸 코딩함. 이것보다 발전된 방향은 여러가지 더 있다. 5.Spectral Clustering 5. Spectral Clustering Spectral Clustering [작성자 : 정민준] velog.io 목적은 어떤 그래프가 주어졌을때, 밀집도를 비교하여 서로 비슷한 밀도를 가진 군집을 찾아내어 구분짓는 것이 목표이다. 수학적으로 전개와 증명을 이어나가는데, 하나하나 제대로 이해할 수는 없었다. 수학은 복잡한데 비해, 알고리즘은 간단하다...
Atari, Mujoco, Gym이런거 말고 더 없을까 해서 알아봄. 마리오같은 흔한 환경은 제외함 재밌는 환경들이 많으니 감상만 하셔도 될듯합니다 ㅎㅎㅎ 1. D4RL 다양한 환경들 sites.google.com/view/d4rl/home D4RL A collection of benchmarks and datasets for offline reinforcement learning sites.google.com 주방 환경도 있음 ㅋ 2. CHALET: Cornell House Agent Learning Environment 집안일 관련 환경 제공. 방사이를 옮겨다니면서 집안 가구들과 상호작용을 액션으로 할 수 있음 github.com/lil-lab/chalet lil-lab/chalet Cornell H..
어쩌다 보니 2탄 저번에 했던 것에 이어서 connected agent들이 목표지점을 향해 가는 방향으로 학습 할 수 있는 환경을 만들어 볼 수도 있겠다고 생각했다. 아직 시뮬레이션 초기화랑 렌더링 하는 부분까지만 완성을 했는데 open gym 포맷으로 조금씩 발전시켜 나가 볼 듯함. Custom openai gym openai gym은 강화학습을 시작하면 한번쯤은 돌려봤을 환경들인데, 환경과 에이전트가 서로 상호작용한다는 프로세스를 단순화 시킨 프레임워크라 개인 환경을 짠다고하면 대체로 gym 스타일로 짜려고 한다. 요즘엔 gym을 그냥 상속받아서 그안에 step 이나 reset, render 같은 부분을 내가 원하는대로 맞춰서 쓸 수 있는데 방법은 아래 링크를 가면 잘 나와있다. 멀티에이전트 환경의 ..
최근에 그래프 신경망을 이용한 프로젝트를 진행중인데 아무래도 그래프가 처음 다루는 자료형이다 보니 익숙하지가 않다. 파이썬에서 배열을 다루는데 특화된게 numpy 라면 그래프에서는 networkx가 있다. networkx.org/documentation/stable/index.html 그래프 신경망을 위한 파이토치라이브러리도 있는데 torch_gemetric이라고 있다. pytorch-geometric.readthedocs.io/en/latest/index.html 일전에 이를 이용해서 간단하게 카트폴 훈련을 시켰는데 REINFORCE로 학습시킴에도 생각보다 빠르게 학습되는 것에 놀람. github.com/keep9oing/GNN_RL keep9oing/GNN_RL reinforcement learnin..
Reference(원본): bair.berkeley.edu/blog/2021/03/23/universal-computation/ Pretrained Transformers as Universal Computation Engines The BAIR Blog bair.berkeley.edu 구독중인 버클리 대학의 블로그인데 영어 공부도 할겸 겸사겸사 번역작업 요약을 미리하지면, Transformer라는 자연어 학습용으로 개발된 신경망 모델이 있는데, 이 녀석이 일반화 능력이 엄청좋다는 것이다. 어느정도냐면 언어모델에 대해 미리 학습시키고 그 파라미터를 고정시킨 후 이미지 분류작업에대해 간단히 fine-tuning 학습만 시켜줘도 아주빨리 학습하고 정확도도 좋다는 것이다. 특히 대용량 언어모델에 대해서 미리 ..
mathpix.com/ Mathpix Snip Do you spend a lot of time typing equations in LaTeX? Try Mathpix Snip for iOS, Android, macOS, Windows or Linux and start converting images to LaTeX instantly! mathpix.com 대학원생활 구세주같은 도구 window, linux mac 모두 지원하며 latex 구문을 복붙해야할때 사기적인 정확도와 편리성을 보여준다. 그냥 다운로드 받아서 캡쳐에 쓰면됨 캡쳐하면 알아서 latex를 구문 별로 예제를 보여주고 그냥 가져다 쓰면된다. 화면에 표시되는 모든 구문 가능 필수 앱
Reference: arxiv.org/pdf/1507.06527.pdf COMA 구현을 하다가 RNN을 포함하는 agent 업데이트를 해야해서 가장 기본적이라고 하는 DRQN을 구현 해봄. Code github.com/keep9oing/DRQN-Pytorch-CartPole-v1 keep9oing/DRQN-Pytorch-CartPole-v1 Deep recurrent Q learning on CartPole-v1 environment - keep9oing/DRQN-Pytorch-CartPole-v1 github.com 에러 제보 환영입니다. :) POMDP (partially observable MDP) 대부분의 강화학습 문제는 MDP로 문제를 정의하고 최대 objective(reward, entropy..
며칠전부터 Policy gradient 알고리즘들 밑바닥부터 짜는 중에 A3C 개발하며 느낀점들 1. 구현체 github.com/keep9oing/PG-Family keep9oing/PG-Family Basic PG Reinforcement algorithms. Contribute to keep9oing/PG-Family development by creating an account on GitHub. github.com 2. multi processing A3C를 구현하려면 멀티 프로세싱을 해야했는데, 뭐 어떻게 하는지 전혀 몰라서 python 의 multi processing packag관련 튜토리얼을 먼저 봐야했다. 2-1) 튜토리얼 docs.python.org/ko/3/library/multipr..