QMIX는 저번 COMA리뷰에 이은 2번째 멀티에이전트 강화학습에 대한 논문리뷰입니다. QMIX에 대해 공부할때는 크게 3가지 자료를 보시면 많이 도움이 되는데요, 1. 원 논문 arxiv.org/abs/1803.11485 QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centr..
# 지금 연구하는 분야를 설명하자면 멀티로봇시스템을 운용하게 될 때, 진행해야하는 다양한 작업들을 어떻게 효율적으로 로봇에 할당시켜 실행할 것인지를 결정하는 의사결정 알고리즘을 만드는 것이 목표이다. # 좀 간단하게 구체화 하자면 내가 운용할 $N$대의 멀티로봇 개체가 존재하고, $$(A_1, A_2, A_3, \cdots, A_N)$$ 내가 원하는 복합적 미션을 수행하기위한 임의의 작업이 $M$개 주어졌다고 했을 때 $$(T_1, T_2, T_3, \cdots, T_M)$$ 각 로봇들을 어떤 작업에, 어떤 순서로 할당해야 수행하고자하는 미션의 performance를 최대화하고 거기에 사용되는 cost를 최소화 할 수 있는지, 최대한 최적화된 의사결정을 하는 것을 의미한다. 여기서 작업(task)이란, ..
Foerster, Jakob, et al. "Counterfactual multi-agent policy gradients." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 32. No. 1. 2018. 0. Comment MADDPG와 더불어, Centralized learning, Decentralized executing 진영의 대표적인 알고리즘. COMA라 불리고 있으며 discrete action 에 대해서만 다룬다는 것이 MADDPG에 비해 한계점을 가지고 있으나, Deep multi agent reinfrocement learning 관점에서 개별 agent의 공헌도를 부여하는 credit assignment(리워드 ..
논문: Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." Advances in neural information processing systems. 2015. 최근 Task allocation, Travelling sales man problem, vehicle routing problem과 관련된 연구를 위해 논문을 조사 중인데, 위 문제들은 대체로 combinatorial optimization문제로 귀결된다. NP hard인 이 문제를 학습으로 접근하여 풀려고 했는데 관련 논문들에서 pointer networks가 자주 언급되어 직접 읽기로함. 참고로 위 문제들을 간단히 설명하자면 주어진 task나 way point들에..
From One to Another: How Robot-Robot Interaction Affects Users' Perceptions Following a Transition Between Robots https://ieeexplore.ieee.org/document/8673304 Abstract 다수의 로봇이 사람과 상호작용하는 경우가 많아지고 있다. 따라서 다수의 로봇이 어떤식으로 사람들에게 정보를 전달하는지가 중요해졌다. 논문에서는 3x3 mixed 디자인 스터디를 디자인하여 실험한다. 이때 고정 된 로봇이 다양한 기능이 있는 (소셜 로봇이 아닌) 모바일 로봇을 소환("원문, summoned")하여 참가자를 가이드하게 한다. 참가자는 3가지의 로봇-로봇 인터랙션을 경험하게 되는데 1. repres..
ddpg seminar from 민재 정 두번째 세미나 자료, 역시나 슬라이드 쉐어는 화질이 깨지는데 괜찮은 슬라이드 공유 툴이 있으면 좋을 것 같다. 아니면 안깨지는 방법이 있는지.. 오늘 슬라이드느 Deep deterministic policy gradient기법에 관한 자료, 논문 리뷰는 아니라 이 카테고리에 딱 맞지는 않지만 원 논문을 많이 참고 했기때문에 이곳에 업로드. 간단히 DDPG는 연속적인 action spaces에 대한 고려를 하기 위한 actor-ciric, model-free, off-policy 기법이다.
[논문] https://arxiv.org/pdf/1611.03673.pdf [영상] 딥마인드의 논문. 영상기반의 네비게이션에 대한 새로운 심층강화학습 기법 제안과 분석이다. 제목이나 저자가 흥미로워서 읽었지만 introduction과 approach만 읽는게 나을것같아서 실험결과와 분석부분은 표만 참고하여 읽었다. 네비게이션 문제에서 항상 언급되는것이 agent가 센서만을 통해 주행을 한다고하면 주변 환경이 빠르게 바뀌면 거기에 대처하기 힘들다는 것이다. RL의경우 reward가 sparse해지고 기본적으로 네비게이션에는 3가지 계층의 메모리가 필요한데(one shot: goal position, short term memory: observation, long term memory: boundary, ..
Multi-Robot Dyanmic Task Allocation for Exploration and Destruction Abstract Foraging(수렵)이라고 불리는 환경 탐색은 로보틱스에서 자주 등장하는 주제중 하나이다. 이 논문에서는 멀티로봇의 임무 할당에 중점을 두어 설명한다. 여기서의 임무이라 함은 다수의 로봇이 특정 환경에 투입되서 파괴하는 것을 말한다. 임무의 경우 환경에 대한 탐색 임무와 같이 수행될 수 밖에 없으며, 파괴 임무에 대해서는 타켓과 로봇간의 차이로 인해 수행의 결과가 달라질 수 있다. 이와 같은 변수는 임무들의 수행에 대한 복잡도를 증가시키며 이를 해소하기 위해 3가지 접근 방법을 사용한다. 1. auction based approach 2. vacancy chain a..