POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition

9 February 2024

Papers citing "POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition"

5 / 5 papers shown

Title
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 37 0 0 02 May 2025
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 64 0 0 03 Apr 2025
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 47 2 0 23 Apr 2024
Off-Policy Evaluation for Large Action Spaces via Policy Convolution Noveen Sachdeva Lequn Wang Dawen Liang Nathan Kallus Julian McAuley OffRL 30 12 0 24 Oct 2023
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 38 181 0 22 Aug 2019