v1v2v3v4v5 (latest)

On the Theory of Policy Gradient Methods: Optimality, Approximation, and Distribution Shift

Annual Conference Computational Learning Theory (COLT), 2019

1 August 2019

Papers citing "On the Theory of Policy Gradient Methods: Optimality, Approximation, and Distribution Shift"

50 / 225 papers shown

Towards Formalizing Reinforcement Learning Theory

Shangtong Zhang

156

05 Nov 2025

Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees

Nan Jiang

Tengyang Xie

OffRL

246

05 Oct 2025

Sampling Complexity of TD and PPO in RKHS

156

29 Sep 2025

Proximal Point Nash Learning from Human Feedback

274

26 May 2025

Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach

Swetha Ganesh

Vaneet Aggarwal

284

26 May 2025

KL-regularization Itself is Differentially Private in Bandits and RLHF

307

23 May 2025

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

619

16 May 2025

Infinite Horizon Markov Economies

299

22 Feb 2025

Sharp Analysis for KL-Regularized Contextual Bandits and RLHF

702

07 Nov 2024

Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory controlCommunications in Transportation Research (CTR), 2024

Zihao Sheng

Zilin Huang

Sikai Chen

305

30 Aug 2024

Functional Acceleration for Policy Mirror Descent

Veronica Chelu

Doina Precup

386

23 Jul 2024

SAIL: Self-Improving Efficient Online Alignment of Large Language Models

Furong Huang

307

21 Jun 2024

Hybrid Reinforcement Learning from Offline Observation Alone

350

11 Jun 2024

Enhancing Efficiency of Safe Reinforcement Learning via Sample Manipulation

Adam Wierman

Ming Jin

OffRL

342

31 May 2024

Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity

Yan Yang

Bin Gao

Ya-xiang Yuan

502

30 May 2024

Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments

James Anderson

296

29 May 2024

Recurrent Natural Policy Gradient for POMDPs

Semih Cayci

A. Eryilmaz

389

28 May 2024

Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning

Sihan Zeng

Thinh T. Doan

Justin Romberg

238

03 May 2024

Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time OraclesInternational Conference on Machine Learning (ICML), 2024

539

18 Mar 2024

Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems

231

06 Mar 2024

Learning to Model Diverse Driving Behaviors in Highly Interactive Autonomous Driving Scenarios with Multi-Agent Reinforcement Learning

288

21 Feb 2024

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHFInternational Conference on Machine Learning (ICML), 2024

434

10 Feb 2024

Behind the Myth of Exploration in Policy Gradients

Adrien Bolland

Gaspard Lambrechts

Damien Ernst

474

31 Jan 2024

$R$\times$R: Rapid eXploration for Reinforcement Learning via Sampling-based Reset Distributions and Imitation Pre-training$

\times

R: Rapid eXploration for Reinforcement Learning via Sampling-based Reset Distributions and Imitation Pre-training

385

27 Jan 2024

The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations

Matthias Lehmann

366

24 Jan 2024

On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization

Ling Liang

Haizhao Yang

248

23 Jan 2024

PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clipping

318

19 Dec 2023

Fast Policy Learning for Linear Quadratic Control with Entropy Regularization

Xin Guo

Xinyu Li

Renyuan Xu

499

23 Nov 2023

On the Second-Order Convergence of Biased Policy Gradient AlgorithmsInternational Conference on Machine Learning (ICML), 2023

Siqiao Mu

Diego Klabjan

486

05 Nov 2023

Model-Based Reparameterization Policy Gradient Methods: Theory and Practical AlgorithmsNeural Information Processing Systems (NeurIPS), 2023

363

30 Oct 2023

Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm with General Parameterization for Infinite Horizon Discounted Reward Markov Decision ProcessesInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Washim Uddin Mondal

Vaneet Aggarwal

334

18 Oct 2023

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language ModelsInternational Conference on Machine Learning (ICML), 2023

Ziniu Li

563

162

16 Oct 2023

Bi-Level Offline Policy Optimization with Limited ExplorationNeural Information Processing Systems (NeurIPS), 2023

Wenzhuo Zhou

OffRL

319

10 Oct 2023

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces

459

04 Oct 2023

On Representation Complexity of Model-based and Model-free Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2023

465

03 Oct 2023

Stackelberg Batch Policy Learning

Wenzhuo Zhou

Annie Qu

OffRL

340

28 Sep 2023

Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in IBMDPs

544

23 Sep 2023

Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision ProcessesAAAI Conference on Artificial Intelligence (AAAI), 2023

Qinbo Bai

Washim Uddin Mondal

Vaneet Aggarwal

405

05 Sep 2023

PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human FeedbackInternational Conference on Learning Representations (ICLR), 2023

Mengdi Wang

Furong Huang

422

03 Aug 2023

Learning to Generate Better Than Your LLM

378

20 Jun 2023

Provably Robust Temporal Difference Learning for Heavy-Tailed RewardsNeural Information Processing Systems (NeurIPS), 2023

Semih Cayci

A. Eryilmaz

289

20 Jun 2023

Warm-Start Actor-Critic: From Approximation Error to Sub-optimality GapInternational Conference on Machine Learning (ICML), 2023

278

20 Jun 2023

Acceleration in Policy Optimization

357

18 Jun 2023

On the Global Convergence of Natural Actor-Critic with Two-layer Neural Network Parametrization

301

18 Jun 2023

Low-Switching Policy Gradient with Exploration via Online Sensitivity SamplingInternational Conference on Machine Learning (ICML), 2023

271

15 Jun 2023

On the Linear Convergence of Policy Gradient under Hadamard ParameterizationInformation and Inference A Journal of the IMA (JIII), 2023

Jiacai Liu

Jinchi Chen

Ke Wei

285

31 May 2023

Solving Robust MDPs through No-Regret Dynamics

E. Guha

363

30 May 2023

Decision-Aware Actor-Critic with Function Approximation and Theoretical GuaranteesNeural Information Processing Systems (NeurIPS), 2023

Nicolas Le Roux

478

24 May 2023

Zero-sum Polymatrix Markov Games: Equilibrium Collapse and Efficient Computation of Nash EquilibriaNeural Information Processing Systems (NeurIPS), 2023

Fivos Kalogiannis

Ioannis Panageas

432

23 May 2023

On First-Order Meta-Reinforcement Learning with Moreau EnvelopesIEEE Conference on Decision and Control (CDC), 2023

Taha Toghani

Sebastian Perez-Salazar

César A. Uribe

296

20 May 2023