Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence

24 May 2021

Papers citing "Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence"

23 / 23 papers shown

Title
Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games Tong Yang Bo Dai Lin Xiao Yuejie Chi OffRL 66 2 0 13 Feb 2025
Last Iterate Convergence in Monotone Mean Field Games Noboru Isobe Kenshi Abe Kaito Ariu 51 0 0 07 Oct 2024
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF Zhaolin Gao Wenhao Zhan Jonathan D. Chang Gokul Swamy Kianté Brantley Jason D. Lee Wen Sun OffRL 78 3 0 06 Oct 2024
Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity Yan Yang Bin Gao Ya-xiang Yuan 50 2 0 30 May 2024
On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization Ling Liang Haizhao Yang 14 1 0 23 Jan 2024
When is Agnostic Reinforcement Learning Statistically Tractable? Zeyu Jia Gene Li Alexander Rakhlin Ayush Sekhari Nathan Srebro OffRL 32 5 0 09 Oct 2023
On the Linear Convergence of Policy Gradient under Hadamard Parameterization Jiacai Liu Jinchi Chen Ke Wei 29 2 0 31 May 2023
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation Uri Sherman Tomer Koren Yishay Mansour 32 12 0 30 Jan 2023
Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods Gen Li Yanxi Chen Yu Huang Yuejie Chi H. Vincent Poor Yuxin Chen OT 46 5 0 30 Jan 2023
Mirror descent of Hopfield model Hyungjoon Soh D. Kim Juno Hwang Junghyo Jo 25 0 0 29 Nov 2022
Robust Imitation via Mirror Descent Inverse Reinforcement Learning Dong-Sig Han Hyunseok Kim Hyun-Dong Lee Je-hwan Ryu Byoung-Tak Zhang 28 2 0 20 Oct 2022
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games Shicong Cen Yuejie Chi S. Du Lin Xiao 61 35 0 03 Oct 2022
Algorithm for Constrained Markov Decision Process with Linear Convergence E. Gladin Maksim Lavrik-Karmazin K. Zainullina Varvara Rudenko Alexander V. Gasnikov Martin Takáč 33 6 0 03 Jun 2022
Independent Natural Policy Gradient Methods for Potential Games: Finite-time Global Convergence with Entropy Regularization Shicong Cen Fan Chen Yuejie Chi 37 15 0 12 Apr 2022
Accelerating Primal-dual Methods for Regularized Markov Decision Processes Haoya Li Hsiang-Fu Yu Lexing Ying Inderjit Dhillon 34 4 0 21 Feb 2022
Mirror Learning: A Unifying Framework of Policy Optimisation J. Kuba Christian Schroeder de Witt Jakob N. Foerster 29 24 0 07 Jan 2022
Approximate Newton policy gradient algorithms Haoya Li Samarth Gupta Hsiangfu Yu Lexing Ying Inderjit Dhillon 51 2 0 05 Oct 2021
On the Linear convergence of Natural Policy Gradient Algorithm S. Khodadadian P. Jhunjhunwala Sushil Mahavir Varma S. T. Maguluri 42 56 0 04 May 2021
Softmax Policy Gradient Methods Can Take Exponential Time to Converge Gen Li Yuting Wei Yuejie Chi Yuxin Chen 29 50 0 22 Feb 2021
Provably Efficient Policy Optimization for Two-Player Zero-Sum Markov Games Yulai Zhao Yuandong Tian Jason D. Lee S. Du OffRL 41 18 0 17 Feb 2021
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 64 67 0 17 Feb 2021
Policy Mirror Descent for Reinforcement Learning: Linear Convergence, New Sampling Complexity, and Generalized Problem Classes Guanghui Lan 102 137 0 30 Jan 2021
Safe Exploration in Markov Decision Processes T. Moldovan Pieter Abbeel 78 308 0 22 May 2012