Stochastic Variance-Reduced Policy Gradient

14 June 2018

Papers citing "Stochastic Variance-Reduced Policy Gradient"

41 / 41 papers shown

Title
FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHF Flint Xiaofeng Fan Cheston Tan Yew-Soon Ong Roger Wattenhofer Wei Tsang Ooi 85 1 0 20 Dec 2024
Learning Optimal Deterministic Policies with Stochastic Policy Gradients Alessandro Montenegro Marco Mussi Alberto Maria Metelli Matteo Papini 42 2 0 03 May 2024
Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis Guangchen Lan Dong-Jun Han Abolfazl Hashemi Vaneet Aggarwal Christopher G. Brinton 124 15 0 09 Apr 2024
Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries Swetha Ganesh Jiayu Chen Gugan Thoppe Vaneet Aggarwal FedML 64 1 0 15 Mar 2024
Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis Rui Liu Erfaun Noorani Pratap Tokekar John S. Baras 25 1 0 13 Mar 2024
On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization Ling Liang Haizhao Yang 14 1 0 23 Jan 2024
Efficiently Escaping Saddle Points for Non-Convex Policy Optimization Sadegh Khorasani Saber Salehkaleybar Negar Kiyavash Niao He Matthias Grossglauser 21 1 0 15 Nov 2023
Oracle Complexity Reduction for Model-free LQR: A Stochastic Variance-Reduced Policy Gradient Approach Leonardo F. Toso Han Wang James Anderson 31 2 0 19 Sep 2023
Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In Time Xiang Ji Gen Li OffRL 32 7 0 24 May 2023
On First-Order Meta-Reinforcement Learning with Moreau Envelopes Taha Toghani Sebastian Perez-Salazar César A. Uribe 29 2 0 20 May 2023
SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree Search Gal Dalal Assaf Hallak Gugan Thoppe Shie Mannor Gal Chechik 29 3 0 30 Jan 2023
Stochastic Dimension-reduced Second-order Methods for Policy Optimization Jinsong Liu Chen Xie Qinwen Deng Dongdong Ge Yi-Li Ye 24 1 0 28 Jan 2023
Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic Wesley A Suttle Amrit Singh Bedi Bhrij Patel Brian M Sadler Alec Koppel Dinesh Manocha 23 14 0 28 Jan 2023
FedHQL: Federated Heterogeneous Q-Learning Flint Xiaofeng Fan Yining Ma Zhongxiang Dai Cheston Tan Bryan Kian Hsiang Low Roger Wattenhofer FedML 24 7 0 26 Jan 2023
Variance-Reduced Conservative Policy Iteration Naman Agarwal Brian Bullins Karan Singh 24 3 0 12 Dec 2022
An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods Yanli Liu Kaipeng Zhang Tamer Basar W. Yin 37 102 0 15 Nov 2022
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions Shuang Qiu Xiaohan Wei Jieping Ye Zhaoran Wang Zhuoran Yang OffRL 27 11 0 25 Jul 2022
Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm Qinbo Bai Amrit Singh Bedi Vaneet Aggarwal 24 20 0 12 Jun 2022
PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient Estimation Matilde Gargiani Andrea Zanelli Andrea Martinelli Tyler H. Summers John Lygeros 33 14 0 01 Feb 2022
Accelerated and instance-optimal policy evaluation with linear function approximation Tianjiao Li Guanghui Lan A. Pananjady OffRL 37 13 0 24 Dec 2021
Recent Advances in Reinforcement Learning in Finance B. Hambly Renyuan Xu Huining Yang OffRL 27 166 0 08 Dec 2021
Distributed Policy Gradient with Variance Reduction in Multi-Agent Reinforcement Learning Xiaoxiao Zhao Jinlong Lei Li Li Jie-bin Chen OffRL 18 2 0 25 Nov 2021
Theoretical Guarantees of Fictitious Discount Algorithms for Episodic Reinforcement Learning and Global Convergence of Policy Gradient Methods Xin Guo Anran Hu Junzi Zhang OffRL 25 6 0 13 Sep 2021
A general sample complexity analysis of vanilla policy gradient Rui Yuan Robert Mansel Gower A. Lazaric 74 62 0 23 Jul 2021
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT Wanlu Lei Yu Ye Ming Xiao Mikael Skoglund Zhu Han 21 1 0 30 Jun 2021
Factored Policy Gradients: Leveraging Structure for Efficient Learning in MOMDPs Thomas Spooner N. Vadori Sumitra Ganesh 22 7 0 20 Feb 2021
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee Tengyu Xu Yingbin Liang Guanghui Lan 36 121 0 11 Nov 2020
Single and Multi-Agent Deep Reinforcement Learning for AI-Enabled Wireless Networks: A Tutorial Amal Feriani E. Hossain 35 236 0 06 Nov 2020
Sample Efficient Reinforcement Learning with REINFORCE Junzi Zhang Jongho Kim Brendan O'Donoghue Stephen P. Boyd 37 99 0 22 Oct 2020
Imbalanced Continual Learning with Partitioning Reservoir Sampling C. Kim Jinseo Jeong Gunhee Kim CLL 19 101 0 08 Sep 2020
Variational Policy Gradient Method for Reinforcement Learning with General Utilities Junyu Zhang Alec Koppel Amrit Singh Bedi Csaba Szepesvári Mengdi Wang 19 137 0 04 Jul 2020
Non-asymptotic Convergence Analysis of Two Time-scale (Natural) Actor-Critic Algorithms Tengyu Xu Zhe Wang Yingbin Liang 18 57 0 07 May 2020
A Finite Time Analysis of Two Time-Scale Actor Critic Methods Yue Wu Weitong Zhang Pan Xu Quanquan Gu 90 146 0 04 May 2020
Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning Shangtong Zhang Bo Liu Shimon Whiteson 13 38 0 22 Apr 2020
$Policy Optimization for $\mathcal{H}_2$ Linear Control with $\mathcal{H}_\infty$ Robustness Guarantee: Implicit Regularization and Global Convergence$ Policy Optimization for $\mathcal{H}_2$ Linear Control with $\mathcal{H}_\infty$ Robustness Guarantee: Implicit Regularization and Global Convergence Kaipeng Zhang Bin Hu Tamer Basar 24 119 0 21 Oct 2019
On the Sample Complexity of Actor-Critic Method for Reinforcement Learning with Function Approximation Harshat Kumar Alec Koppel Alejandro Ribeiro 102 79 0 18 Oct 2019
Sample Efficient Policy Gradient Methods with Recursive Variance Reduction Pan Xu F. Gao Quanquan Gu 25 83 0 18 Sep 2019
Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies Kaipeng Zhang Alec Koppel Haoqi Zhu Tamer Basar 33 186 0 19 Jun 2019
Policy Optimization Provably Converges to Nash Equilibria in Zero-Sum Linear Quadratic Games Kaipeng Zhang Zhuoran Yang Tamer Basar 19 125 0 31 May 2019
Communication-Efficient Policy Gradient Methods for Distributed Reinforcement Learning Tianyi Chen Kaipeng Zhang G. Giannakis Tamer Basar OffRL 24 41 0 07 Dec 2018
Incremental Majorization-Minimization Optimization with Application to Large-Scale Machine Learning Julien Mairal 79 317 0 18 Feb 2014