Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation

16 October 2019

Papers citing "Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation"

20 / 20 papers shown

Title
Optimizing Language Models for Human Preferences is a Causal Inference Problem Victoria Lin Eli Ben-Michael Louis-Philippe Morency 43 3 0 22 Feb 2024
Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment Qitong Gao Stephen L. Schimdt Afsana Chowdhury Guangyu Feng Jennifer J. Peters Katherine Genty W. Grill Dennis A. Turner Miroslav Pajic OffRL 33 11 0 05 Feb 2023
A Reinforcement Learning Framework for Dynamic Mediation Analysis Linjuan Ge Jitao Wang C. Shi Zhanghua Wu Rui Song 29 5 0 31 Jan 2023
Variational Latent Branching Model for Off-Policy Evaluation Qitong Gao Ge Gao Min Chi Miroslav Pajic OffRL 36 6 0 28 Jan 2023
When is Realizability Sufficient for Off-Policy Reinforcement Learning? Andrea Zanette OffRL 16 14 0 10 Nov 2022
Biases in In Silico Evaluation of Molecular Optimization Methods and Bias-Reduced Evaluation Methodology Hiroshi Kajino Kohei Miyaguchi Takayuki Osogami 59 1 0 28 Jan 2022
Continual Learning In Environments With Polynomial Mixing Times Matthew D Riemer Sharath Chandra Raparthy Ignacio Cases G. Subbaraj M. P. Touzel Irina Rish CLL 41 8 0 13 Dec 2021
Pessimistic Model Selection for Offline Deep Reinforcement Learning Chao-Han Huck Yang Zhengling Qi Yifan Cui Pin-Yu Chen OffRL 27 4 0 29 Nov 2021
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning Andrea Zanette Martin J. Wainwright Emma Brunskill OffRL 29 111 0 19 Aug 2021
Variance-Aware Off-Policy Evaluation with Linear Function Approximation Yifei Min Tianhao Wang Dongruo Zhou Quanquan Gu OffRL 37 38 0 22 Jun 2021
Deeply-Debiased Off-Policy Interval Estimation C. Shi Runzhe Wan Victor Chernozhukov R. Song OffRL 17 35 0 10 May 2021
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality Tengyu Xu Zhuoran Yang Zhaoran Wang Yingbin Liang OffRL 39 24 0 23 Feb 2021
Is Pessimism Provably Efficient for Offline RL? Ying Jin Zhuoran Yang Zhaoran Wang OffRL 27 346 0 30 Dec 2020
Reliable Off-policy Evaluation for Reinforcement Learning Jie Wang Rui Gao H. Zha OffRL 22 11 0 08 Nov 2020
CoinDICE: Off-Policy Confidence Interval Estimation Bo Dai Ofir Nachum Yinlam Chow Lihong Li Csaba Szepesvári Dale Schuurmans OffRL 27 84 0 22 Oct 2020
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders Andrew Bennett Nathan Kallus Lihong Li Ali Mousavi OffRL 35 43 0 27 Jul 2020
Batch Policy Learning in Average Reward Markov Decision Processes Peng Liao Zhengling Qi Runzhe Wan P. Klasnja S. Murphy OffRL 34 81 0 23 Jul 2020
Reinforcement Learning via Fenchel-Rockafellar Duality Ofir Nachum Bo Dai OffRL 16 118 0 07 Jan 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 38 181 0 22 Aug 2019
Learning from Conditional Distributions via Dual Embeddings Bo Dai Niao He Yunpeng Pan Byron Boots Le Song 35 21 0 15 Jul 2016