Policy Gradient Method For Robust Reinforcement Learning

15 May 2022

Papers citing "Policy Gradient Method For Robust Reinforcement Learning"

45 / 45 papers shown

Title
Pessimism Principle Can Be Effective: Towards a Framework for Zero-Shot Transfer Reinforcement Learning Chi Zhang Ziying Jia George Atia Sihong He Yue Wang 83 0 0 24 May 2025
Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning Yang Xu Washim Uddin Mondal Vaneet Aggarwal OffRL 76 1 0 24 Feb 2025
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form Toshinori Kitamura Tadashi Kozuno Wataru Kumagai Kenta Hoshino Y. Hosoe Kazumi Kasaura Masashi Hamaya Paavo Parmas Yutaka Matsuo 89 2 0 29 Aug 2024
Robust Q-Learning for finite ambiguity sets Cécile Decker Julian Sester 54 1 0 05 Jul 2024
Sample Complexity of Robust Reinforcement Learning with a Generative Model Kishan Panaganti D. Kalathil 115 76 0 02 Dec 2021
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch Shangtong Zhang Rémi Tachet des Combes Romain Laroche 73 12 0 04 Nov 2021
Twice regularized MDPs and the equivalence between robustness and regularization E. Derman Matthieu Geist Shie Mannor 80 56 0 12 Oct 2021
Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates Romain Laroche Rémi Tachet des Combes 56 8 0 29 Sep 2021
Online Robust Reinforcement Learning with Model Uncertainty Yue Wang Shaofeng Zou OOD OffRL 103 107 0 29 Sep 2021
Maximum Entropy RL (Provably) Solves Some Robust RL Problems Benjamin Eysenbach Sergey Levine OOD 76 182 0 10 Mar 2021
Softmax Policy Gradient Methods Can Take Exponential Time to Converge Gen Li Yuting Wei Yuejie Chi Yuxin Chen 76 53 0 22 Feb 2021
Robust Policy Gradient against Strong Data Corruption Xuezhou Zhang Yiding Chen Xiaojin Zhu Wen Sun AAML 76 38 0 11 Feb 2021
Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty R. Russel M. Benosman J. Baar 56 22 0 10 Oct 2020
Robust Reinforcement Learning using Adversarial Populations Eugene Vinitsky Yuqing Du Kanaad Parvate Kathy Jang Pieter Abbeel Alexandre M. Bayen AAML 67 79 0 04 Aug 2020
On Linear Convergence of Policy Gradient Methods for Finite MDPs Jalaj Bhandari Daniel Russo 79 61 0 21 Jul 2020
Variational Policy Gradient Method for Reinforcement Learning with General Utilities Junyu Zhang Alec Koppel Amrit Singh Bedi Csaba Szepesvári Mengdi Wang 57 139 0 04 Jul 2020
Partial Policy Iteration for L1-Robust Markov Decision Processes C. Ho Marek Petrik W. Wiesemann 98 54 0 16 Jun 2020
Robust Reinforcement Learning with Wasserstein Constraint Linfang Hou Liang Pang Xin Hong Yanyan Lan Zhiming Ma Dawei Yin 46 24 0 01 Jun 2020
Finite-sample Analysis of Greedy-GQ with Linear Function Approximation under Markovian Noise Yue Wang Shaofeng Zou 38 21 0 20 May 2020
On the Global Convergence Rates of Softmax Policy Gradient Methods Jincheng Mei Chenjun Xiao Csaba Szepesvári Dale Schuurmans 121 291 0 13 May 2020
Stable Policy Optimization via Off-Policy Divergence Regularization Ahmed Touati Amy Zhang Joelle Pineau Pascal Vincent OffRL 94 17 0 09 Mar 2020
Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions J.N. Zhang Hongzhou Lin Stefanie Jegelka Ali Jadbabaie S. Sra 39 44 0 10 Feb 2020
Wasserstein Robust Reinforcement Learning Mohammed Abdullah Hang Ren Haitham Bou-Ammar Vladimir Milenkovic Rui Luo Mingtian Zhang Jun Wang 103 75 0 30 Jul 2019
Global Optimality Guarantees For Policy Gradient Methods Jalaj Bhandari Daniel Russo 65 193 0 05 Jun 2019
Action Robust Reinforcement Learning and Applications in Continuous Control Chen Tessler Yonathan Efroni Shie Mannor 59 235 0 26 Jan 2019
Gradient Descent Finds Global Minima of Deep Neural Networks S. Du Jason D. Lee Haochuan Li Liwei Wang Masayoshi Tomizuka ODL 170 1,134 0 09 Nov 2018
A Finite Time Analysis of Temporal Difference Learning With Linear Function Approximation Jalaj Bhandari Daniel Russo Raghav Singal 101 339 0 06 Jun 2018
Robust Nonparametric Regression under Huber's $ε$ -contamination Model S. Du Yining Wang Sivaraman Balakrishnan Pradeep Ravikumar Aarti Singh 42 12 0 26 May 2018
Analysis of nonsmooth stochastic approximation: the differential inclusion approach Szymon Majewski B. Miasojedow Eric Moulines 44 49 0 04 May 2018
Robust Estimation via Robust Gradient Estimation Adarsh Prasad A. Suggala Sivaraman Balakrishnan Pradeep Ravikumar 57 221 0 19 Feb 2018
Spectral Normalization for Generative Adversarial Networks Takeru Miyato Toshiki Kataoka Masanori Koyama Yuichi Yoshida ODL 155 4,433 0 16 Feb 2018
Robust Deep Reinforcement Learning with Adversarial Attacks Anay Pattanaik Zhenyi Tang Shuijing Liu Gautham Bommannan Girish Chowdhary OOD 54 305 0 11 Dec 2017
Implicit Regularization in Deep Learning Behnam Neyshabur 50 146 0 06 Sep 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 444 18,931 0 20 Jul 2017
Reinforcement Learning under Model Mismatch Aurko Roy Huan Xu Sebastian Pokutta OOD 45 80 0 15 Jun 2017
Constrained Policy Optimization Joshua Achiam David Held Aviv Tamar Pieter Abbeel 108 1,321 0 30 May 2017
Delving into adversarial attacks on deep policies Jernej Kos D. Song AAML 59 225 0 18 May 2017
Robust Adversarial Reinforcement Learning Lerrel Pinto James Davidson Rahul Sukthankar Abhinav Gupta OOD 88 853 0 08 Mar 2017
Tactics of Adversarial Attack on Deep Reinforcement Learning Agents Yen-Chen Lin Zhang-Wei Hong Yuan-Hong Liao Meng-Li Shih Ming-Yuan Liu Min Sun AAML 62 413 0 08 Mar 2017
Adversarial Attacks on Neural Network Policies Sandy Huang Nicolas Papernot Ian Goodfellow Yan Duan Pieter Abbeel MLAU AAML 81 837 0 08 Feb 2017
EPOpt: Learning Robust Neural Network Policies Using Model Ensembles Aravind Rajeswaran Sarvjeet Ghotra Balaraman Ravindran Sergey Levine 138 350 0 05 Oct 2016
Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-Łojasiewicz Condition Hamed Karimi J. Nutini Mark Schmidt 244 1,216 0 16 Aug 2016
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 204 5,069 0 05 Jun 2016
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 265 6,755 0 19 Feb 2015
On TD(0) with function approximation: Concentration bounds and a centered variant with exponential convergence N. Korda Prashanth La 47 45 0 12 Nov 2014