Order-Optimal Regret with Novel Policy Gradient Approaches in Infinite-Horizon Average Reward MDPs

2 April 2024

Papers citing "Order-Optimal Regret with Novel Policy Gradient Approaches in Infinite-Horizon Average Reward MDPs"

7 / 7 papers shown

Title
From Gradient Clipping to Normalization for Heavy Tailed SGD Florian Hübler Ilyas Fatkhullin Niao He 40 5 0 17 Oct 2024
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles Bhrij Patel Wesley A Suttle Alec Koppel Vaneet Aggarwal Brian M Sadler Amrit Singh Bedi Dinesh Manocha 32 1 0 18 Mar 2024
Provable Policy Gradient Methods for Average-Reward Markov Potential Games Min Cheng Ruida Zhou P. R. Kumar Chao Tian 49 2 0 09 Mar 2024
Stochastic Second-Order Methods Improve Best-Known Sample Complexity of SGD for Gradient-Dominated Function Saeed Masiha Saber Salehkaleybar Niao He Negar Kiyavash Patrick Thiran 87 18 0 25 May 2022
Adapting to Mixing Time in Stochastic Optimization with Markovian Data Ron Dorfman Kfir Y. Levy 37 28 0 09 Feb 2022
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 67 0 17 Feb 2021
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Hiteshi Sharma R. Jain 107 99 0 15 Oct 2019