Evolutionary 알고리즘에 대한 개략적인 설명은 이전 포스트에서 언급됐다. Evolutionary strategy 1 - Simple Gaussian Evolution 최근 RL관련 논문이나 구루들의 토의 영상들을 보면 evolution strategy(혹은 evolution algorithm)이란 단어가 심심치 않게 등장한다. Evolution algorithm은 Black box optimization의 일종이다. Black box opti.. ropiens.tistory.com 오늘은 $(\mu, \lambda)$-ES 방식과는 약간 다른 Elitarian selection $(\mu + \lambda)$-ES에 대해 알아보겠다. Elitarian selection $(\mu + \lambd..
최근 RL관련 논문이나 구루들의 토의 영상들을 보면 evolution strategy(혹은 evolution algorithm)이란 단어가 심심치 않게 등장한다. Evolution algorithm은 Black box optimization의 일종이다. Black box optimization은 우리가 최적화 하고자 하는 함수의 전체적인 형태는 알 수 없지만 입력에 대한 출력은 확인 할 수 있는 함수(evaluation만 가능한 black box)에 대해 우리가 원하는 최적 인풋을 찾는 기법을 말한다. 기존의 딥러닝 기법들은 경사도 기반 기법(gradient descent 등)들을 주로 사용하여 loss 함수를 최적화하는 것을 통해 학습을 진행해 왔다. Black box optimization이 이와 좀..
요즘 Machine learning with graph (CS224W) 강의 리뷰를 어느 분들이 감사하게 해주어서 보고있다. 오늘은 Spectral clustering에 대해 읽었는데, 처음 소개하는 알고리즘이 간단하게 보이기도 하고 networkx도 계속 연습할 겸 코딩함. 이것보다 발전된 방향은 여러가지 더 있다. 5.Spectral Clustering 5. Spectral Clustering Spectral Clustering [작성자 : 정민준] velog.io 목적은 어떤 그래프가 주어졌을때, 밀집도를 비교하여 서로 비슷한 밀도를 가진 군집을 찾아내어 구분짓는 것이 목표이다. 수학적으로 전개와 증명을 이어나가는데, 하나하나 제대로 이해할 수는 없었다. 수학은 복잡한데 비해, 알고리즘은 간단하다...
Atari, Mujoco, Gym이런거 말고 더 없을까 해서 알아봄. 마리오같은 흔한 환경은 제외함 재밌는 환경들이 많으니 감상만 하셔도 될듯합니다 ㅎㅎㅎ 1. D4RL 다양한 환경들 sites.google.com/view/d4rl/home D4RL A collection of benchmarks and datasets for offline reinforcement learning sites.google.com 주방 환경도 있음 ㅋ 2. CHALET: Cornell House Agent Learning Environment 집안일 관련 환경 제공. 방사이를 옮겨다니면서 집안 가구들과 상호작용을 액션으로 할 수 있음 github.com/lil-lab/chalet lil-lab/chalet Cornell H..
어쩌다 보니 2탄 저번에 했던 것에 이어서 connected agent들이 목표지점을 향해 가는 방향으로 학습 할 수 있는 환경을 만들어 볼 수도 있겠다고 생각했다. 아직 시뮬레이션 초기화랑 렌더링 하는 부분까지만 완성을 했는데 open gym 포맷으로 조금씩 발전시켜 나가 볼 듯함. Custom openai gym openai gym은 강화학습을 시작하면 한번쯤은 돌려봤을 환경들인데, 환경과 에이전트가 서로 상호작용한다는 프로세스를 단순화 시킨 프레임워크라 개인 환경을 짠다고하면 대체로 gym 스타일로 짜려고 한다. 요즘엔 gym을 그냥 상속받아서 그안에 step 이나 reset, render 같은 부분을 내가 원하는대로 맞춰서 쓸 수 있는데 방법은 아래 링크를 가면 잘 나와있다. 멀티에이전트 환경의 ..
최근에 그래프 신경망을 이용한 프로젝트를 진행중인데 아무래도 그래프가 처음 다루는 자료형이다 보니 익숙하지가 않다. 파이썬에서 배열을 다루는데 특화된게 numpy 라면 그래프에서는 networkx가 있다. networkx.org/documentation/stable/index.html 그래프 신경망을 위한 파이토치라이브러리도 있는데 torch_gemetric이라고 있다. pytorch-geometric.readthedocs.io/en/latest/index.html 일전에 이를 이용해서 간단하게 카트폴 훈련을 시켰는데 REINFORCE로 학습시킴에도 생각보다 빠르게 학습되는 것에 놀람. github.com/keep9oing/GNN_RL keep9oing/GNN_RL reinforcement learnin..
Reference(원본): bair.berkeley.edu/blog/2021/03/23/universal-computation/ Pretrained Transformers as Universal Computation Engines The BAIR Blog bair.berkeley.edu 구독중인 버클리 대학의 블로그인데 영어 공부도 할겸 겸사겸사 번역작업 요약을 미리하지면, Transformer라는 자연어 학습용으로 개발된 신경망 모델이 있는데, 이 녀석이 일반화 능력이 엄청좋다는 것이다. 어느정도냐면 언어모델에 대해 미리 학습시키고 그 파라미터를 고정시킨 후 이미지 분류작업에대해 간단히 fine-tuning 학습만 시켜줘도 아주빨리 학습하고 정확도도 좋다는 것이다. 특히 대용량 언어모델에 대해서 미리 ..
mathpix.com/ Mathpix Snip Do you spend a lot of time typing equations in LaTeX? Try Mathpix Snip for iOS, Android, macOS, Windows or Linux and start converting images to LaTeX instantly! mathpix.com 대학원생활 구세주같은 도구 window, linux mac 모두 지원하며 latex 구문을 복붙해야할때 사기적인 정확도와 편리성을 보여준다. 그냥 다운로드 받아서 캡쳐에 쓰면됨 캡쳐하면 알아서 latex를 구문 별로 예제를 보여주고 그냥 가져다 쓰면된다. 화면에 표시되는 모든 구문 가능 필수 앱