Ordering-based Conditions for Global Convergence of Policy Gradient Methods

2 April 2025

Papers citing "Ordering-based Conditions for Global Convergence of Policy Gradient Methods"

7 / 7 papers shown

Title
Offline-to-online Reinforcement Learning for Image-based Grasping with Scarce Demonstrations Bryan Chan Anson Leung James Bergstra OffRL OnRL 62 0 0 19 Oct 2024
Dual Approximation Policy Optimization Zhihan Xiong Maryam Fazel Lin Xiao 35 1 0 02 Oct 2024
The Crucial Role of Samplers in Online Direct Preference Optimization Ruizhe Shi Runlong Zhou Simon S. Du 61 8 0 29 Sep 2024
Policy Mirror Descent with Lookahead Kimon Protopapas Anas Barakat 29 1 0 21 Mar 2024
A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence Carlo Alfano Rui Yuan Patrick Rebeschini 65 15 0 30 Jan 2023
Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization Carlo Alfano Patrick Rebeschini 54 13 0 30 Sep 2022
Policy Mirror Descent for Reinforcement Learning: Linear Convergence, New Sampling Complexity, and Generalized Problem Classes Guanghui Lan 91 136 0 30 Jan 2021