Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning

4 April 2016

Papers citing "Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning"

50 / 342 papers shown

Title
Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework Wenzhuo Zhou Yuhan Li Ruoqing Zhu Annie Qu OffRL 36 4 0 23 Sep 2023
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning Hanhan Zhou Tian-Shing Lan Vaneet Aggarwal OffRL 40 4 0 28 Aug 2023
Online Matching: A Real-time Bandit System for Large-scale Recommendations Xinyang Yi Shaoyang Wang Ruining He Hariharan Chandrasekaran Charles Wu Lukasz Heldt Lichan Hong Minmin Chen Ed H. Chi OffRL 38 3 0 29 Jul 2023
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning Akash Velu Skanda Vaidyanath Dilip Arumugam OffRL 35 1 0 21 Jul 2023
Leveraging Factored Action Spaces for Off-Policy Evaluation Aaman Rebello Shengpu Tang Jenna Wiens Sonali Parbhoo Department of Engineering CML OffRL 34 2 0 13 Jul 2023
Deep Attention Q-Network for Personalized Treatment Recommendation Simin Ma Junghwan Lee N. Serban Shihao Yang OffRL 40 5 0 04 Jul 2023
Value-aware Importance Weighting for Off-policy Reinforcement Learning Kristopher De Asis Eric Graves R. Sutton OffRL 29 1 0 27 Jun 2023
Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data Sunil Madhow Dan Xiao Ming Yin Yu-Xiang Wang OffRL 34 0 0 24 Jun 2023
Off-policy Evaluation in Doubly Inhomogeneous Environments Zeyu Bian C. Shi Zhengling Qi Lan Wang OffRL 37 4 0 14 Jun 2023
$K$ -Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control Michael Giegrich Roel Oomen C. Reisinger OffRL 35 2 0 07 Jun 2023
Reliable Off-Policy Learning for Dosage Combinations Jonas Schweisthal Dennis Frauen Valentyn Melnychuk Stefan Feuerriegel OffRL 31 12 0 31 May 2023
High-probability sample complexities for policy evaluation with linear function approximation Gen Li Weichen Wu Yuejie Chi Cong Ma Alessandro Rinaldo Yuting Wei OffRL 40 7 0 30 May 2023
DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm Yunhao Tang Tadashi Kozuno Mark Rowland Anna Harutyunyan Rémi Munos Bernardo Avila-Pires Michal Valko 16 0 0 29 May 2023
Off-policy evaluation beyond overlap: partial identification through smoothness Samir Khan Martin Saveski J. Ugander OffRL 46 5 0 19 May 2023
Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling Yuta Saito Qingyang Ren Thorsten Joachims CML OffRL 24 22 0 14 May 2023
Truncating Trajectories in Monte Carlo Reinforcement Learning Riccardo Poiani Alberto Maria Metelli Marcello Restelli 29 2 0 07 May 2023
Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning P. Emedom-Nnamdi A. Friesen Bobak Shahriari Nando de Freitas Matthew W. Hoffman OffRL 34 0 0 05 May 2023
Correcting for Interference in Experiments: A Case Study at Douyin Vivek F. Farias Hao Li Tianyi Peng Xinyuyang Ren B. Hassibi A. Zheng 41 9 0 04 May 2023
Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under Probabilistic Agent Dropout Carmel Fiscko S. Kar Bruno Sinopoli 18 1 0 24 Apr 2023
A Survey of Demonstration Learning André Rosa de Sousa Porfírio Correia Luís A. Alexandre OffRL 38 18 0 20 Mar 2023
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation Jonas Rothfuss Bhavya Sukhija Tobias Birchler Parnian Kassraie Andreas Krause OffRL 31 10 0 02 Mar 2023
Model-based Constrained MDP for Budget Allocation in Sequential Incentive Marketing Shuai Xiao Le Guo Zaifan Jiang Lei Lv Yuanbo Chen Jun Zhu Shuang Yang 30 21 0 02 Mar 2023
Balanced Off-Policy Evaluation for Personalized Pricing Adam N. Elmachtoub Vishal Gupta Yunfan Zhao OffRL 42 6 0 24 Feb 2023
Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments Vincent Liu Yash Chandak Philip S. Thomas Martha White OffRL 24 0 0 23 Feb 2023
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare Ge Gao Song Ju Markel Sanz Ausin Min Chi OffRL 34 8 0 18 Feb 2023
Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation Cem Gokmen Daniel Ho Mohi Khansari OffRL 39 5 0 08 Feb 2023
Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment Qitong Gao Stephen L. Schimdt Afsana Chowdhury Guangyu Feng Jennifer J. Peters Katherine Genty W. Grill Dennis A. Turner Miroslav Pajic OffRL 38 11 0 05 Feb 2023
Revisiting Bellman Errors for Offline Model Selection Joshua P. Zitovsky Daniel de Marchi Rishabh Agarwal Michael R. Kosorok University of North Carolina at Chapel Hill OffRL 35 5 0 31 Jan 2023
A Reinforcement Learning Framework for Dynamic Mediation Analysis Linjuan Ge Jitao Wang C. Shi Zhanghua Wu Rui Song 31 5 0 31 Jan 2023
A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence Carlo Alfano Rui Yuan Patrick Rebeschini 70 15 0 30 Jan 2023
Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection Daiqi Gao Yufeng Liu D. Zeng OffRL 25 0 0 29 Jan 2023
Variational Latent Branching Model for Off-Policy Evaluation Qitong Gao Ge Gao Min Chi Miroslav Pajic OffRL 41 6 0 28 Jan 2023
Model-based Offline Reinforcement Learning with Local Misspecification Kefan Dong Yannis Flet-Berliac Allen Nie Emma Brunskill OffRL 31 4 0 26 Jan 2023
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments Yash Chandak Shiv Shankar Nathaniel D. Bastian Bruno Castro da Silva Emma Brunskil Philip S. Thomas OffRL 52 6 0 24 Jan 2023
An Instrumental Variable Approach to Confounded Off-Policy Evaluation Yang Xu Jin Zhu C. Shi Shuang Luo R. Song OffRL 26 14 0 29 Dec 2022
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning Yang Xu C. Shi Shuang Luo Lan Wang R. Song OffRL 31 4 0 29 Dec 2022
Local Policy Improvement for Recommender Systems Dawen Liang N. Vlassis OffRL 21 3 0 22 Dec 2022
Safe Evaluation For Offline Learning: Are We Ready To Deploy? Hager Radi Josiah P. Hanna Peter Stone Matthew E. Taylor OffRL ELM 39 0 0 16 Dec 2022
Scaling Marginalized Importance Sampling to High-Dimensional State-Spaces via State Abstraction Brahma S. Pavse Josiah P. Hanna OffRL 34 7 0 14 Dec 2022
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 46 69 0 13 Dec 2022
Low Variance Off-policy Evaluation with State-based Importance Sampling David M. Bossens Philip S. Thomas OffRL 6 1 0 07 Dec 2022
Policy-Adaptive Estimator Selection for Off-Policy Evaluation Takuma Udagawa Haruka Kiyohara Yusuke Narita Yuta Saito Keisuke Tateno OffRL 27 23 0 25 Nov 2022
Counterfactual Learning with Multioutput Deep Kernels A. Caron G. Baio I. Manolopoulou BDL CML OffRL 27 1 0 20 Nov 2022
When is Realizability Sufficient for Off-Policy Reinforcement Learning? Andrea Zanette OffRL 29 14 0 10 Nov 2022
Oracle Inequalities for Model Selection in Offline Reinforcement Learning Jonathan Lee George Tucker Ofir Nachum Bo Dai Emma Brunskill OffRL 30 13 0 03 Nov 2022
Bayesian Counterfactual Mean Embeddings and Off-Policy Evaluation Diego Martinez-Taboada Dino Sejdinovic CML OffRL 27 0 0 02 Nov 2022
Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions Audrey Huang Nan Jiang OffRL 62 9 0 27 Oct 2022
Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions Haanvid Lee Jongmin Lee Yunseon Choi Wonseok Jeon Byung-Jun Lee Yung-Kyun Noh Kee-Eung Kim OffRL 14 5 0 24 Oct 2022
Data-Efficient Pipeline for Offline Reinforcement Learning with Limited Data Allen Nie Yannis Flet-Berliac Deon R. Jordan William Steenbergen Emma Brunskill OffRL 31 12 0 16 Oct 2022
Hierarchical reinforcement learning for in-hand robotic manipulation using Davenport chained rotations Francisco Roldan Sanchez Qiang-qiang Wang David Córdova Bulens Kevin McGuinness Stephen J. Redmond Noel E. O'Connor 23 1 0 03 Oct 2022