A Review of Off-Policy Evaluation in Reinforcement Learning

A Review of Off-Policy Evaluation in Reinforcement Learning

13 December 2022

Masatoshi Uehara

Papers citing "A Review of Off-Policy Evaluation in Reinforcement Learning"

17 / 17 papers shown

Title
Q-function Decomposition with Intervention Semantics with Factored Action Spaces Junkyu Lee Tian Gao Elliot Nelson Miao Liu D. Bhattacharjya Songtao Lu OffRL 45 0 0 30 Apr 2025
SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement Brian Cho Ana-Roxana Pop Ariel Evince Nathan Kallus OffRL 44 0 0 17 Mar 2025
Statistical Inference in Reinforcement Learning: A Selective Survey Chengchun Shi OffRL 67 0 0 22 Feb 2025
Zero-shot Model-based Reinforcement Learning using Large Language Models Abdelhakim Benechehab Youssef Attia El Hili Ambroise Odonnat Oussama Zekri Albert Thomas Giuseppe Paolo Maurizio Filippone I. Redko Balázs Kégl OffRL 62 1 0 17 Feb 2025
Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy Keru Chen Honghao Wei Zhigang Deng Sen Lin OffRL OnRL 91 0 0 31 Dec 2024
Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators Ori Linial Guy Tennenholtz Uri Shalit OffRL 36 1 0 30 Jun 2024
Contextual Linear Optimization with Bandit Feedback Yichun Hu Nathan Kallus Xiaojie Mao Yanchen Wu 33 0 0 26 May 2024
Spatially Randomized Designs Can Enhance Policy Evaluation Ying Yang Chengchun Shi Fang Yao Shouyang Wang Hongtu Zhu OffRL 33 0 0 18 Mar 2024
Counterfactual Influence in Markov Decision Processes M. Kazemi Jessica Lally Ekaterina Tishchenko Hana Chockler Nicola Paoletti 21 1 0 13 Feb 2024
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond Thanh Nguyen-Tang Raman Arora OffRL 27 3 0 06 Jan 2024
A Reinforcement Learning Framework for Dynamic Mediation Analysis Linjuan Ge Jitao Wang C. Shi Zhanghua Wu Rui Song 27 5 0 31 Jan 2023
Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions Audrey Huang Nan Jiang OffRL 43 9 0 27 Oct 2022
Anytime-valid off-policy inference for contextual bandits Ian Waudby-Smith Lili Wu Aaditya Ramdas Nikos Karampatziakis Paul Mineiro OffRL 36 25 0 19 Oct 2022
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes Zuyue Fu Zhengling Qi Zhaoran Wang Zhuoran Yang Yanxun Xu Michael R. Kosorok OffRL 35 16 0 18 Sep 2022
q-Learning in Continuous Time Yanwei Jia X. Zhou OffRL 45 67 0 02 Jul 2022
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 334 1,951 0 04 May 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 33 181 0 22 Aug 2019