v1v2 (latest)

On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method

Neural Information Processing Systems (NeurIPS), 2021

17 February 2021

Mengdi Wang

Papers citing "On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method"

47 / 47 papers shown

Bayesian Risk-Sensitive Policy Optimization For MDPs With General Loss Functions

Xiaoshuang Wang

Yifan Lin

Enlu Zhou

220

19 Sep 2025

Online Episodic Convex Reinforcement Learning

356

12 May 2025

Robo-taxi Fleet Coordination at Scale via Reinforcement Learning

448

08 Apr 2025

Enhancing PPO with Trajectory-Aware Hybrid Policies

342

21 Feb 2025

Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning ratesNeural Information Processing Systems (NeurIPS), 2025

397

11 Feb 2025

Transformer-based Model Predictive Control: Trajectory Optimization via Sequence ModelingIEEE Robotics and Automation Letters (RA-L), 2024

320

31 Oct 2024

From Gradient Clipping to Normalization for Heavy Tailed SGDInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Florian Hübler

Ilyas Fatkhullin

Niao He

491

17 Oct 2024

Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs

Washim Uddin Mondal

Vaneet Aggarwal

372

21 Aug 2024

MetaCURL: Non-stationary Concave Utility Reinforcement Learning

286

30 May 2024

Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent BaselineIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Qian Zheng

Gang Pan

252

04 May 2024

Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries

382

15 Mar 2024

Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence

Ilyas Fatkhullin

Niao He

380

27 Feb 2024

Stochastic Gradient Succeeds for Bandits

284

27 Feb 2024

MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences

Hui Yuan

Furong Huang

Mengdi Wang

234

14 Feb 2024

On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization

Ling Liang

Haizhao Yang

244

23 Jan 2024

Global Convergence of Natural Policy Gradient with Hessian-aided Momentum Variance ReductionJournal of Scientific Computing (J. Sci. Comput.), 2024

Jie Feng

Ke Wei

Jinchi Chen

414

02 Jan 2024

Efficiently Escaping Saddle Points for Policy OptimizationConference on Uncertainty in Artificial Intelligence (UAI), 2023

Matthias Grossglauser

352

15 Nov 2023

Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm with General Parameterization for Infinite Horizon Discounted Reward Markov Decision ProcessesInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Washim Uddin Mondal

Vaneet Aggarwal

332

18 Oct 2023

Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision ProcessesAAAI Conference on Artificial Intelligence (AAAI), 2023

Qinbo Bai

Washim Uddin Mondal

Vaneet Aggarwal

404

05 Sep 2023

An Adaptive Optimization Approach to Personalized Financial Incentives in Mobile Behavioral Weight Loss Interventions

286

01 Jul 2023

Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action SpaceInternational Conference on Machine Learning (ICML), 2023

Anas Barakat

Ilyas Fatkhullin

Niao He

259

02 Jun 2023

Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General UtilitiesNeural Information Processing Systems (NeurIPS), 2023

424

27 May 2023

Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In TimeNeural Information Processing Systems (NeurIPS), 2023

Xiang Ji

Gen Li

OffRL

434

24 May 2023

Instruction Tuned Models are Quick Learners

352

17 May 2023

Scalable Multi-Agent Reinforcement Learning with General UtilitiesAmerican Control Conference (ACC), 2023

278

15 Feb 2023

Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate PoliciesInternational Conference on Machine Learning (ICML), 2023

463

03 Feb 2023

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear ConvergenceNeural Information Processing Systems (NeurIPS), 2023

Carlo Alfano

Rui Yuan

Patrick Rebeschini

672

30 Jan 2023

Stochastic Dimension-reduced Second-order Methods for Policy Optimization

Dongdong Ge

146

28 Jan 2023

The Role of Baselines in Policy Gradient OptimizationNeural Information Processing Systems (NeurIPS), 2023

331

16 Jan 2023

Variance-Reduced Conservative Policy IterationInternational Conference on Algorithmic Learning Theory (ALT), 2022

Naman Agarwal

Brian Bullins

Karan Singh

258

12 Dec 2022

SoftTreeMax: Policy Gradient with Tree Search

Gal Dalal

Assaf Hallak

Shie Mannor

Gal Chechik

190

28 Sep 2022

On the Reuse Bias in Off-Policy Reinforcement LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Hang Su

Jun Zhu

266

15 Sep 2022

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual AlgorithmAAAI Conference on Artificial Intelligence (AAAI), 2022

Qinbo Bai

Amrit Singh Bedi

Vaneet Aggarwal

288

12 Jun 2022

Stochastic Second-Order Methods Improve Best-Known Sample Complexity of SGD for Gradient-Dominated FunctionNeural Information Processing Systems (NeurIPS), 2022

406

25 May 2022

Momentum-Based Policy Gradient with Second-Order Information

351

17 May 2022

PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient EstimationInternational Conference on Machine Learning (ICML), 2022

184

01 Feb 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

424

31 Jan 2022

MDPGT: Momentum-based Decentralized Policy Gradient TrackingAAAI Conference on Artificial Intelligence (AAAI), 2021

Aditya Balu

252

06 Dec 2021

Convergence and Optimality of Policy Gradient Methods in Weakly Smooth SettingsAAAI Conference on Artificial Intelligence (AAAI), 2021

Matthew Shunshi Zhang

Murat A. Erdogdu

Animesh Garg

468

30 Oct 2021

Understanding the Effect of Stochasticity in Policy OptimizationNeural Information Processing Systems (NeurIPS), 2021

271

29 Oct 2021

Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization

504

19 Oct 2021

On the Global Optimum Convergence of Momentum-based Policy Gradient

Yuhao Ding

Junzi Zhang

Javad Lavaei

400

19 Oct 2021

Concave Utility Reinforcement Learning with Zero-Constraint Violations

Mridul Agarwal

Qinbo Bai

Vaneet Aggarwal

471

12 Sep 2021

A general sample complexity analysis of vanilla policy gradientInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

Rui Yuan

Robert Mansel Gower

A. Lazaric

539

23 Jul 2021

Bregman Gradient Policy Optimization

Feihu Huang

Shangqian Gao

Heng-Chiao Huang

513

23 Jun 2021

Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based AlgorithmJournal of Artificial Intelligence Research (JAIR), 2021

Qinbo Bai

Mridul Agarwal

Vaneet Aggarwal

164

28 May 2021

Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear ConvergenceSIAM Journal on Optimization (SIAM J. Optim.), 2021

497

24 May 2021