[keep9oing] Counterfactual Multi-Agent Policy Gradient (COMA) 리뷰
Foerster, Jakob, et al. "Counterfactual multi-agent policy gradients." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 32. No. 1. 2018. 0. Comment MADDPG와 더불어, Centralized learning, Decentralized executing 진영의 대표적인 알고리즘. COMA라 불리고 있으며 discrete action 에 대해서만 다룬다는 것이 MADDPG에 비해 한계점을 가지고 있으나, Deep multi agent reinfrocement learning 관점에서 개별 agent의 공헌도를 부여하는 credit assignment(리워드 ..
논문 리뷰
2021. 1. 21. 17:08