Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation

29 October 2018

Papers citing "Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation"

50 / 97 papers shown

Title
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 42 0 0 02 May 2025
Reinforcement Learning with Continuous Actions Under Unmeasured Confounding Yuhan Li Eugene Han Yifan Hu Wenzhuo Zhou Zhengling Qi Yifan Cui Ruoqing Zhu OffRL 239 0 0 01 May 2025
IGN : Implicit Generative Networks Haozheng Luo Tianyi Wu Feiyu Han Zhijun Yan OffRL 37 1 0 24 Feb 2025
Divergence-Augmented Policy Optimization Qing Wang Yingru Li Jiechao Xiong Tong Zhang OffRL 55 16 0 28 Jan 2025
Multiple-policy Evaluation via Density Estimation Yilei Chen Aldo Pacchiano I. Paschalidis OffRL 32 0 0 29 Mar 2024
Spatially Randomized Designs Can Enhance Policy Evaluation Ying Yang Chengchun Shi Fang Yao Shouyang Wang Hongtu Zhu OffRL 47 0 0 18 Mar 2024
Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate Yifan Lin Yuhao Wang Enlu Zhou 78 0 0 01 Mar 2024
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation Yuheng Zhang Nan Jiang OffRL 31 4 0 22 Feb 2024
Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation Paul Daoudi Mathias Formoso Othman Gaizi Achraf Azize Evrard Garcelon OffRL 31 0 0 24 Dec 2023
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets Zhang-Wei Hong Aviral Kumar Sathwik Karnik Abhishek Bhandwaldar Akash Srivastava Joni Pajarinen Romain Laroche Abhishek Gupta Pulkit Agrawal OffRL 43 19 0 06 Oct 2023
The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation Philip Amortila Nan Jiang Csaba Szepesvári OffRL 34 3 0 25 Jul 2023
Correcting for Interference in Experiments: A Case Study at Douyin Vivek F. Farias Hao Li Tianyi Peng Xinyuyang Ren B. Hassibi A. Zheng 41 9 0 04 May 2023
Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments Vincent Liu Yash Chandak Philip S. Thomas Martha White OffRL 24 0 0 23 Feb 2023
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare Ge Gao Song Ju Markel Sanz Ausin Min Chi OffRL 34 8 0 18 Feb 2023
A Strong Baseline for Batch Imitation Learning Matthew Smith Lucas Maystre Zhenwen Dai K. Ciosek OffRL 25 4 0 06 Feb 2023
Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment Qitong Gao Stephen L. Schimdt Afsana Chowdhury Guangyu Feng Jennifer J. Peters Katherine Genty W. Grill Dennis A. Turner Miroslav Pajic OffRL 38 11 0 05 Feb 2023
A Reinforcement Learning Framework for Dynamic Mediation Analysis Linjuan Ge Jitao Wang C. Shi Zhanghua Wu Rui Song 31 5 0 31 Jan 2023
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments Yash Chandak Shiv Shankar Nathaniel D. Bastian Bruno Castro da Silva Emma Brunskil Philip S. Thomas OffRL 52 6 0 24 Jan 2023
Offline Policy Optimization in RL with Variance Regularizaton Riashat Islam Samarth Sinha Homanga Bharadhwaj Samin Yeasar Arnob Zhuoran Yang Animesh Garg Zhaoran Wang Lihong Li Doina Precup OffRL 30 0 0 29 Dec 2022
Policy learning "without'' overlap: Pessimism and generalized empirical Bernstein's inequality Ying Jin Zhimei Ren Zhuoran Yang Zhaoran Wang OffRL 40 25 0 19 Dec 2022
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 46 69 0 13 Dec 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 26 5 0 28 Nov 2022
When is Realizability Sufficient for Off-Policy Reinforcement Learning? Andrea Zanette OffRL 29 14 0 10 Nov 2022
Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions Audrey Huang Nan Jiang OffRL 62 9 0 27 Oct 2022
On the Reuse Bias in Off-Policy Reinforcement Learning Chengyang Ying Zhongkai Hao Xinning Zhou Hang Su Dong Yan Jun Zhu OffRL 45 3 0 15 Sep 2022
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs Masatoshi Uehara Haruka Kiyohara Andrew Bennett Victor Chernozhukov Nan Jiang Nathan Kallus C. Shi Wen Sun OffRL 34 16 0 26 Jul 2022
Model-Free and Model-Based Policy Evaluation when Causality is Uncertain David Bruns-Smith CML ELM OffRL 24 12 0 02 Apr 2022
Offline Reinforcement Learning Under Value and Density-Ratio Realizability: The Power of Gaps Jinglin Chen Nan Jiang OffRL 25 34 0 25 Mar 2022
Importance Sampling Placement in Off-Policy Temporal-Difference Methods Eric Graves Sina Ghiassian OffRL 34 2 0 18 Mar 2022
DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning Jinxin Liu Hongyin Zhang Donglin Wang OffRL 38 33 0 13 Mar 2022
A Complete Characterization of Linear Estimators for Offline Policy Evaluation Juan C. Perdomo A. Krishnamurthy Peter L. Bartlett Sham Kakade OffRL 32 3 0 08 Mar 2022
Reinforcement Learning in Practice: Opportunities and Challenges Yuxi Li OffRL 40 9 0 23 Feb 2022
Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process C. Shi Jin Zhu Ye Shen Shuang Luo Hong Zhu R. Song OffRL 33 30 0 22 Feb 2022
A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets C. Shi Runzhe Wan Ge Song Shuang Luo R. Song Hongtu Zhu OffRL 43 6 0 21 Feb 2022
Stochastic Gradient Descent with Dependent Data for Offline Reinforcement Learning Jing-rong Dong Xin T. Tong OffRL 37 2 0 06 Feb 2022
A Temporal-Difference Approach to Policy Gradient Estimation Samuele Tosatto Andrew Patterson Martha White A. R. Mahmood OffRL 27 2 0 04 Feb 2022
Off Environment Evaluation Using Convex Risk Minimization Pulkit Katdare Shuijing Liu Katherine Driggs-Campbell 18 2 0 21 Dec 2021
Pessimistic Model Selection for Offline Deep Reinforcement Learning Chao-Han Huck Yang Zhengling Qi Yifan Cui Pin-Yu Chen OffRL 41 4 0 29 Nov 2021
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 57 5 0 06 Nov 2021
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch Shangtong Zhang Rémi Tachet des Combes Romain Laroche 35 10 0 04 Nov 2021
False Correlation Reduction for Offline Reinforcement Learning Arvindkumar Krishnakumar Zuyue Fu Lingxiao Wang Zhuoran Yang Chenjia Bai Tianyi Zhou Judy Hoffman Jing Jiang OffRL 39 9 0 24 Oct 2021
Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm Raghuram Bharadwaj Diddigi Prateek Jain P. J S. Bhatnagar CML OffRL 22 3 0 19 Oct 2021
Offline Reinforcement Learning with Soft Behavior Regularization Haoran Xu Xianyuan Zhan Jianxiong Li Honglei Yin OffRL 31 31 0 14 Oct 2021
Explaining Off-Policy Actor-Critic From A Bias-Variance Perspective Ting-Han Fan Peter J. Ramadge CML FAtt OffRL 21 2 0 06 Oct 2021
The $f$ -Divergence Reinforcement Learning Framework Chen Gong Qiang He Yunpeng Bai Zhouyi Yang Xiaoyu Chen Xinwen Hou Xianjie Zhang Yu Liu Guoliang Fan 42 3 0 24 Sep 2021
State Relevance for Off-Policy Evaluation S. Shen Yecheng Ma Omer Gottesman Finale Doshi-Velez OffRL 14 4 0 13 Sep 2021
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning Andrea Zanette Martin J. Wainwright Emma Brunskill OffRL 34 115 0 19 Aug 2021
Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings Shengpu Tang Jenna Wiens OffRL 26 78 0 23 Jul 2021
Conservative Offline Distributional Reinforcement Learning Yecheng Jason Ma Dinesh Jayaraman Osbert Bastani OffRL 73 79 0 12 Jul 2021
Supervised Off-Policy Ranking Yue Jin Yue Zhang Tao Qin Xudong Zhang Jian Yuan Houqiang Li Tie-Yan Liu OffRL 34 5 0 03 Jul 2021