Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction

3 February 2024

Papers citing "Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction"

7 / 7 papers shown

Title
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation Haruka Kiyohara Ren Kishimoto K. Kawakami Ken Kobayashi Kazuhide Nakata Yuta Saito OffRL 45 9 0 30 Nov 2023
Generative Slate Recommendation with Reinforcement Learning Romain Deffayet Thibaut Thonet Jean-Michel Render Maarten de Rijke 39 24 0 20 Jan 2023
Diffusion-Based Representation Learning K. Abstreiter Sarthak Mittal Stefan Bauer Bernhard Schölkopf Arash Mehrjou DiffM 41 57 0 29 May 2021
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions James McInerney B. Brost Praveen Chandar Rishabh Mehrotra Ben Carterette BDL CML OffRL 135 55 0 25 Jul 2020
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 631 11,979 0 27 Aug 2019
Offline Evaluation of Ranking Policies with Click Models Shuai Li Yasin Abbasi-Yadkori Branislav Kveton S. Muthukrishnan Vishwa Vinay Zheng Wen CML OffRL 34 65 0 27 Apr 2018
Doubly Robust Policy Evaluation and Optimization Miroslav Dudík D. Erhan John Langford Lihong Li OffRL 120 285 0 10 Mar 2015