Optimal Off-Policy Evaluation from Multiple Logging Policies

21 October 2020

Papers citing "Optimal Off-Policy Evaluation from Multiple Logging Policies"

9 / 9 papers shown

Title
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 39 0 0 02 May 2025
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 52 2 0 23 Apr 2024
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top- $n$ Recommendation Olivier Jeunen Ivan Potapov Aleksei Ustimenko ELM OffRL 29 11 0 27 Jul 2023
SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits Subhojyoti Mukherjee Qiaomin Xie Josiah P. Hanna R. Nowak OffRL 58 5 0 29 Jan 2023
Safe Exploration for Efficient Policy Evaluation and Comparison Runzhe Wan Branislav Kveton Rui Song OffRL 36 10 0 26 Feb 2022
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model Haruka Kiyohara Yuta Saito Tatsuya Matsuhiro Yusuke Narita N. Shimizu Yasuo Yamamoto OffRL 24 42 0 03 Feb 2022
A Unified Framework for Multi-distribution Density Ratio Estimation Lantao Yu Yujia Jin Stefano Ermon 21 4 0 07 Dec 2021
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation Yuta Saito Shunsuke Aihara Megumi Matsutani Yusuke Narita OffRL 24 73 0 17 Aug 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 41 183 0 22 Aug 2019