Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy
Evaluation

v1v2v3 (latest)

Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation

30 November 2023

Haruka Kiyohara

Kazuhide Nakata

ArXiv (abs)PDF HTML Github (122★)

Papers citing "Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation"

10 / 10 papers shown

Title
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 202 0 0 02 May 2025
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 229 0 0 03 Apr 2025
Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits Tatsuhiro Shimizu Koichi Tanaka Ren Kishimoto Haruka Kiyohara Masahiro Nomura Yuta Saito CML OffRL 88 1 0 20 Aug 2024
Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation Naoki Nishimura Ken Kobayashi Kazuhide Nakata OffRL 40 0 0 06 Jul 2024
Long-term Off-Policy Evaluation and Learning Yuta Saito Himan Abdollahpouri Jesse Anderton Ben Carterette M. Lalmas OffRL 80 8 0 24 Apr 2024
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 92 3 0 23 Apr 2024
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition Yuta Saito Jihan Yao Thorsten Joachims OffRL 102 9 0 09 Feb 2024
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction Haruka Kiyohara Masahiro Nomura Yuta Saito 89 8 0 03 Feb 2024
SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation Haruka Kiyohara Ren Kishimoto K. Kawakami Ken Kobayashi Kazuhide Nakata Yuta Saito OffRL ELM 93 4 0 30 Nov 2023
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation Yuta Saito Shunsuke Aihara Megumi Matsutani Yusuke Narita OffRL 201 75 0 17 Aug 2020