v1v2 (latest)

Counterfactual Multi-Agent Policy Gradients

24 May 2017

Papers citing "Counterfactual Multi-Agent Policy Gradients"

2 / 52 papers shown

Title
The Optimal Reward Baseline for Gradient-Based Reinforcement Learning Lex Weaver Nigel Tao 119 249 0 10 Jan 2013
Optimal and Approximate Q-value Functions for Decentralized POMDPs F. Oliehoek M. Spaan N. Vlassis OffRL 116 500 0 31 Oct 2011