Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER

2 December 2020

Papers citing "Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER"

9 / 9 papers shown

Title
Value Improved Actor Critic Algorithms Yaniv Oren Moritz A. Zanger Pascal R. van der Vaart M. Spaan Wendelin Bohmer Wendelin Bohmer OffRL 67 0 0 03 Jun 2024
Dota 2 with Large Scale Deep Reinforcement Learning OpenAI OpenAI : Christopher Berner Greg Brockman Brooke Chan ... Szymon Sidor Ilya Sutskever Jie Tang Filip Wolski Susan Zhang GNN VLM CLL AI4CE LRM 166 1,823 0 13 Dec 2019
Neural Proximal/Trust Region Policy Optimization Attains Globally Optimal Policy Boyi Liu Qi Cai Zhuoran Yang Zhaoran Wang 70 111 0 25 Jun 2019
On Gradient Descent Ascent for Nonconvex-Concave Minimax Problems Tianyi Lin Chi Jin Michael I. Jordan 120 507 0 02 Jun 2019
What is Local Optimality in Nonconvex-Nonconcave Minimax Optimization? Chi Jin Praneeth Netrapalli Michael I. Jordan 94 84 0 02 Feb 2019
On Finding Local Nash Equilibria (and Only Local Nash Equilibria) in Zero-Sum Games Eric V. Mazumdar Michael I. Jordan S. Shankar Sastry 96 119 0 03 Jan 2019
Depth with Nonlinearity Creates No Bad Local Minima in ResNets Kenji Kawaguchi Yoshua Bengio ODL 78 64 0 21 Oct 2018
Two Timescale Stochastic Approximation with Controlled Markov noise and Off-policy temporal difference learning Prasenjit Karmakar S. Bhatnagar 47 27 0 31 Mar 2015
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 127 12,231 0 19 Dec 2013