v1v2 (latest)

Deeply-Debiased Off-Policy Interval Estimation

10 May 2021

ArXiv (abs)PDF HTML Github (9★)

Papers citing "Deeply-Debiased Off-Policy Interval Estimation"

31 / 31 papers shown

Title
Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation Hongyi Zhou Josiah P. Hanna Jin Zhu Ying Yang Chengchun Shi OffRL 64 0 0 28 May 2025
Statistical Inference in Reinforcement Learning: A Selective Survey Chengchun Shi OffRL 272 2 0 22 Feb 2025
Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement Learning Shuguang Yu Shuxing Fang Ruixin Peng Zhengling Qi Fan Zhou C. Shi CML OffRL 105 4 0 08 Dec 2024
Combining Experimental and Historical Data for Policy Evaluation Ting Li Chengchun Shi Qianglin Wen Yang Sui Yongli Qin Chunbo Lai Hongtu Zhu OffRL 106 1 0 01 Jun 2024
Spatially Randomized Designs Can Enhance Policy Evaluation Ying Yang Chengchun Shi Fang Yao Shouyang Wang Hongtu Zhu OffRL 106 2 0 18 Mar 2024
Robust Offline Reinforcement learning with Heavy-Tailed Rewards Jin Zhu Runzhe Wan Zhengling Qi Shuang Luo C. Shi OffRL 74 1 0 28 Oct 2023
Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework Wenzhuo Zhou Yuhan Li Ruoqing Zhu Annie Qu OffRL 83 5 0 23 Sep 2023
Off-policy Evaluation in Doubly Inhomogeneous Environments Zeyu Bian C. Shi Zhengling Qi Lan Wang OffRL 107 7 0 14 Jun 2023
Conformal Off-Policy Evaluation in Markov Decision Processes Daniele Foffano Alessio Russo Alexandre Proutiere OffRL 165 7 0 05 Apr 2023
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation Jonas Rothfuss Bhavya Sukhija Tobias Birchler Parnian Kassraie Andreas Krause OffRL 83 10 0 02 Mar 2023
STEEL: Singularity-aware Reinforcement Learning Xiaohong Chen Zhengling Qi Runzhe Wan OffRL 83 2 0 30 Jan 2023
Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection Daiqi Gao Yufeng Liu D. Zeng OffRL 59 0 0 29 Jan 2023
Minimax Weight Learning for Absorbing MDPs Fengyin Li Yuqiang Li Xianyi Wu OffRL 31 1 0 09 Jan 2023
Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region Optimization C. Shi Zhengling Qi Jianing Wang Fan Zhou OffRL 53 6 0 05 Jan 2023
Deep Spectral Q-learning with Application to Mobile Health Yuhe Gao C. Shi R. Song 75 0 0 03 Jan 2023
An Instrumental Variable Approach to Confounded Off-Policy Evaluation Yang Xu Jin Zhu C. Shi Shuang Luo R. Song OffRL 104 18 0 29 Dec 2022
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning Yang Xu C. Shi Shuang Luo Lan Wang R. Song OffRL 69 5 0 29 Dec 2022
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 102 76 0 13 Dec 2022
On the Reuse Bias in Off-Policy Reinforcement Learning Chengyang Ying Zhongkai Hao Xinning Zhou Hang Su Dong Yan Jun Zhu OffRL 72 3 0 15 Sep 2022
Conformal Off-policy Prediction Yingying Zhang C. Shi Shuang Luo OffRL 79 11 0 14 Jun 2022
Safe Exploration for Efficient Policy Evaluation and Comparison Runzhe Wan Branislav Kveton Rui Song OffRL 82 14 0 26 Feb 2022
Statistically Efficient Advantage Learning for Offline Reinforcement Learning in Infinite Horizons C. Shi Shuang Luo Yuan Le Hongtu Zhu R. Song OffRL OnRL 74 12 0 26 Feb 2022
Policy Evaluation for Temporal and/or Spatial Dependent Experiments Shuang Luo Ying Yang Chengchun Shi Fang Yao Jieping Ye Hongtu Zhu 122 8 0 22 Feb 2022
Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process C. Shi Jin Zhu Ye Shen Shuang Luo Hong Zhu R. Song OffRL 138 34 0 22 Feb 2022
A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets C. Shi Runzhe Wan Ge Song Shuang Luo R. Song Hongtu Zhu OffRL 73 6 0 21 Feb 2022
On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy Evaluation Xiaohong Chen Zhengling Qi OffRL 91 35 0 17 Jan 2022
A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision Processes C. Shi Masatoshi Uehara Jiawei Huang Nan Jiang OffRL 101 26 0 12 Nov 2021
Projected State-action Balancing Weights for Offline Reinforcement Learning Jiayi Wang Zhengling Qi Raymond K. W. Wong OffRL 73 19 0 10 Sep 2021
Dynamic Selection in Algorithmic Decision-making Jin Li Ye Luo Xiaowei Zhang 98 2 0 28 Aug 2021
Batch Policy Learning in Average Reward Markov Decision Processes Peng Liao Zhengling Qi Runzhe Wan P. Klasnja Susan Murphy OffRL 131 85 0 23 Jul 2020
Statistical Inference of the Value Function for Reinforcement Learning in Infinite Horizon Settings C. Shi Shengyao Zhang W. Lu R. Song OffRL 94 87 0 13 Jan 2020