Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies

6 June 2020

Papers citing "Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies"

8 / 8 papers shown

Title
A Causal Framework for Evaluating Deferring Systems Filippo Palomba Andrea Pugnana Jose M. Alvarez Salvatore Ruggieri CML 59 3 0 29 May 2024
Contextual Linear Optimization with Bandit Feedback Yichun Hu Nathan Kallus Xiaojie Mao Yanchen Wu 37 0 0 26 May 2024
Doubly Robust Proximal Causal Learning for Continuous Treatments Yong Wu Yanwei Fu Shouyan Wang Xinwei Sun 26 1 0 22 Sep 2023
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 43 69 0 13 Dec 2022
Explaining Off-Policy Actor-Critic From A Bias-Variance Perspective Ting-Han Fan Peter J. Ramadge CML FAtt OffRL 21 2 0 06 Oct 2021
Is Pessimism Provably Efficient for Offline RL? Ying Jin Zhuoran Yang Zhaoran Wang OffRL 27 350 0 30 Dec 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 41 183 0 22 Aug 2019
Global Optimality Guarantees For Policy Gradient Methods Jalaj Bhandari Daniel Russo 39 186 0 05 Jun 2019