Confident Off-Policy Evaluation and Selection through Self-Normalized
Importance Weighting

Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting

18 June 2020

Ilja Kuzborskij

Csaba Szepesvári

Papers citing "Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting"

15 / 15 papers shown

Title
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 55 2 0 23 Apr 2024
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 41 5 0 22 Feb 2024
Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments Vincent Liu Yash Chandak Philip S. Thomas Martha White OffRL 24 0 0 23 Feb 2023
Policy learning "without'' overlap: Pessimism and generalized empirical Bernstein's inequality Ying Jin Zhimei Ren Zhuoran Yang Zhaoran Wang OffRL 40 25 0 19 Dec 2022
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 43 69 0 13 Dec 2022
Counterfactual Learning with General Data-generating Policies Yusuke Narita Kyohei Okumura Akihiro Shimizu Kohei Yata CML OffRL 27 0 0 04 Dec 2022
On the Reuse Bias in Off-Policy Reinforcement Learning Chengyang Ying Zhongkai Hao Xinning Zhou Hang Su Dong Yan Jun Zhu OffRL 45 3 0 15 Sep 2022
Uncertainty Quantification for Fairness in Two-Stage Recommender Systems Lequn Wang Thorsten Joachims 30 22 0 30 May 2022
Offline Policy Comparison with Confidence: Benchmarks and Baselines Anurag Koul Mariano Phielipp Alan Fern OffRL 30 0 0 22 May 2022
Pessimistic Model Selection for Offline Deep Reinforcement Learning Chao-Han Huck Yang Zhengling Qi Yifan Cui Pin-Yu Chen OffRL 41 4 0 29 Nov 2021
Online Bootstrap Inference For Policy Evaluation in Reinforcement Learning Pratik Ramprasad Yuantong Li Zhuoran Yang Zhaoran Wang W. Sun Guang Cheng OffRL 52 27 0 08 Aug 2021
Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings Shengpu Tang Jenna Wiens OffRL 26 78 0 23 Jul 2021
Optimal Uniform OPE and Model-based Offline Reinforcement Learning in Time-Homogeneous, Reward-Free and Task-Agnostic Settings Ming Yin Yu Wang OffRL 36 19 0 13 May 2021
Universal Off-Policy Evaluation Yash Chandak S. Niekum Bruno C. da Silva Erik Learned-Miller Emma Brunskill Philip S. Thomas OffRL ELM 39 52 0 26 Apr 2021
CoinDICE: Off-Policy Confidence Interval Estimation Bo Dai Ofir Nachum Yinlam Chow Lihong Li Csaba Szepesvári Dale Schuurmans OffRL 29 84 0 22 Oct 2020