v1v2 (latest)

Statistically Efficient Off-Policy Policy Gradients

International Conference on Machine Learning (ICML), 2020

10 February 2020

Papers citing "Statistically Efficient Off-Policy Policy Gradients"

27 / 27 papers shown

ExGRPO: Learning to Reason from Experience

201

02 Oct 2025

Doubly Robust Alignment for Large Language Models

360

01 Jun 2025

Reinforcement Learning with Continuous Actions Under Unmeasured Confounding

1.0K

01 May 2025

Enhancing PPO with Trajectory-Aware Hybrid Policies

346

21 Feb 2025

Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent BaselineIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Qian Zheng

Gang Pan

256

04 May 2024

Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

207

05 Feb 2024

Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning

376

28 Aug 2023

Inference on Optimal Dynamic Policies via Softmax Approximation

436

08 Mar 2023

Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

David Bruns-Smith

Angela Zhou

OffRL

705

01 Feb 2023

Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region OptimizationJournal of the American Statistical Association (JASA), 2023

234

05 Jan 2023

Offline Policy Evaluation and Optimization under ConfoundingInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

438

29 Nov 2022

Truly Deterministic Policy OptimizationNeural Information Processing Systems (NeurIPS), 2022

330

30 May 2022

Review of Metrics to Measure the Stability, Robustness and Resilience of Reinforcement Learning

L. Pullum

460

22 Mar 2022

Doubly Robust Distributionally Robust Off-Policy Evaluation and LearningInternational Conference on Machine Learning (ICML), 2022

402

19 Feb 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

427

31 Jan 2022

On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy EvaluationInternational Conference on Machine Learning (ICML), 2022

Xiaohong Chen

Zhengling Qi

OffRL

503

17 Jan 2022

Projected State-action Balancing Weights for Offline Reinforcement LearningAnnals of Statistics (Ann. Stat.), 2021

268

10 Sep 2021

A Unified Off-Policy Evaluation Approach for General Value Function

212

06 Jul 2021

Doubly Robust Off-Policy Actor-Critic: Convergence and OptimalityInternational Conference on Machine Learning (ICML), 2021

417

23 Feb 2021

Fast Rates for the Regret of Offline Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2021

480

31 Jan 2021

Optimal Off-Policy Evaluation from Multiple Logging Policies

357

21 Oct 2020

Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies

Nathan Kallus

Masatoshi Uehara

OffRL

185

06 Jun 2020

Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning

Nathan Kallus

Masatoshi Uehara

OffRL

227

06 Jun 2020

Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement LearningOperational Research (OR), 2019

Nathan Kallus

Masatoshi Uehara

OffRL

465

108

12 Sep 2019

Global Optimality Guarantees For Policy Gradient MethodsOperational Research (OR), 2019

Jalaj Bhandari

Daniel Russo

602

226

05 Jun 2019

Learning When-to-Treat PoliciesJournal of the American Statistical Association (JASA), 2019

305

23 May 2019

Relative Importance Sampling For Off-Policy Actor-Critic in Deep Reinforcement Learning

Mahammad Humayoo

Xueqi Cheng

BDL OffRL

360

30 Oct 2018