Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning Algorithms

25 September 2021

Papers citing "Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning Algorithms"

22 / 22 papers shown

Title
Characterizing the Gap Between Actor-Critic and Policy Gradient Junfeng Wen Saurabh Kumar Ramki Gummadi Dale Schuurmans 70 15 0 13 Jun 2021
Solving Min-Max Optimization with Hidden Structure via Gradient Descent Ascent Lampros Flokas Emmanouil-Vasileios Vlatakis-Gkaragkounis Georgios Piliouras MLT 92 14 0 13 Jan 2021
A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis and Application to Actor-Critic Mingyi Hong Hoi-To Wai Zhaoran Wang Zhuoran Yang 66 139 0 10 Jul 2020
Competitive Policy Optimization Manish Prajapat Kamyar Azizzadenesheli Alexander Liniger Yisong Yue Anima Anandkumar 34 15 0 18 Jun 2020
A Game Theoretic Framework for Model Based Reinforcement Learning Aravind Rajeswaran Igor Mordatch Vikash Kumar OffRL 49 127 0 16 Apr 2020
Measuring the Reliability of Reinforcement Learning Algorithms Stephanie C. Y. Chan Sam Fishman John F. Canny Anoop Korattikara Balan S. Guadarrama 45 84 0 10 Dec 2019
Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms Kai Zhang Zhuoran Yang Tamer Basar 169 1,208 0 24 Nov 2019
Poincaré Recurrence, Cycles and Spurious Equilibria in Gradient-Descent-Ascent for Non-Convex Non-Concave Zero-Sum Games Lampros Flokas Emmanouil-Vasileios Vlatakis-Gkaragkounis Georgios Piliouras MLT 60 41 0 28 Oct 2019
Meta-Learning with Implicit Gradients Aravind Rajeswaran Chelsea Finn Sham Kakade Sergey Levine 96 854 0 10 Sep 2019
Bi-level Actor-Critic for Multi-agent Coordination Haifeng Zhang Weizhe Chen Zeren Huang Minne Li Yaodong Yang Weinan Zhang Jun Wang 146 92 0 08 Sep 2019
Stable Opponent Shaping in Differentiable Games Alistair Letcher Jakob N. Foerster David Balduzzi Tim Rocktaschel Shimon Whiteson 67 110 0 20 Nov 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 284 8,313 0 04 Jan 2018
Learning with Opponent-Learning Awareness Jakob N. Foerster Richard Y. Chen Maruan Al-Shedivat Shimon Whiteson Pieter Abbeel Igor Mordatch 91 538 0 13 Sep 2017
A Survey of Learning in Multiagent Environments: Dealing with Non-Stationarity Pablo Hernandez-Leal Michael Kaisers T. Baarslag Enrique Munoz de Cote 70 273 0 28 Jul 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 446 18,931 0 20 Jul 2017
Guide Actor-Critic for Continuous Control Voot Tangkaratt A. Abdolmaleki Masashi Sugiyama 47 17 0 22 May 2017
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 204 5,073 0 05 Jun 2016
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 191 8,833 0 04 Feb 2016
Deep Reinforcement Learning with Double Q-learning H. V. Hasselt A. Guez David Silver OffRL 156 7,623 0 22 Sep 2015
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 310 13,214 0 09 Sep 2015
High-Dimensional Continuous Control Using Generalized Advantage Estimation John Schulman Philipp Moritz Sergey Levine Michael I. Jordan Pieter Abbeel OffRL 82 3,399 0 08 Jun 2015
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 274 6,755 0 19 Feb 2015