Doubly Robust Policy Evaluation and Optimization

10 March 2015

Papers citing "Doubly Robust Policy Evaluation and Optimization"

50 / 63 papers shown

Title
Statistical Inference in Reinforcement Learning: A Selective Survey Chengchun Shi OffRL 74 1 0 22 Feb 2025
Balancing the Scales: Reinforcement Learning for Fair Classification Leon Eshuijs Shihan Wang Antske Fokkens FaML 32 0 0 15 Jul 2024
Contextual Linear Optimization with Bandit Feedback Yichun Hu Nathan Kallus Xiaojie Mao Yanchen Wu 42 0 0 26 May 2024
Cross-Validated Off-Policy Evaluation Matej Cief Branislav Kveton Michal Kompan OffRL 33 1 0 24 May 2024
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 55 2 0 23 Apr 2024
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 41 5 0 22 Feb 2024
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction Haruka Kiyohara Masahiro Nomura Yuta Saito 27 5 0 03 Feb 2024
An Information Theoretic Approach to Interaction-Grounded Learning Xiaoyan Hu Farzan Farnia Ho-fung Leung VLM 40 2 0 10 Jan 2024
Confounding-Robust Policy Improvement with Human-AI Teams Ruijiang Gao Mingzhang Yin 37 3 0 13 Oct 2023
Distributional Off-Policy Evaluation for Slate Recommendations Shreyas Chaudhari David Arbour Georgios Theocharous N. Vlassis OffRL 46 0 0 27 Aug 2023
Model-based Constrained MDP for Budget Allocation in Sequential Incentive Marketing Shuai Xiao Le Guo Zaifan Jiang Lei Lv Yuanbo Chen Jun Zhu Shuang Yang 30 21 0 02 Mar 2023
Sequential Counterfactual Risk Minimization Houssam Zenati Eustache Diemert Matthieu Martin Julien Mairal Pierre Gaillard OffRL 29 3 0 23 Feb 2023
Selective Uncertainty Propagation in Offline RL Sanath Kumar Krishnamurthy Shrey Modi Tanmay Gangwani S. Katariya Branislav Kveton A. Rangi OffRL 68 0 0 01 Feb 2023
A Reinforcement Learning Framework for Dynamic Mediation Analysis Linjuan Ge Jitao Wang C. Shi Zhanghua Wu Rui Song 31 5 0 31 Jan 2023
SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits Subhojyoti Mukherjee Qiaomin Xie Josiah P. Hanna R. Nowak OffRL 58 5 0 29 Jan 2023
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 46 69 0 13 Dec 2022
Multi-Task Off-Policy Learning from Bandit Feedback Joey Hong Branislav Kveton S. Katariya Manzil Zaheer Mohammad Ghavamzadeh OffRL 37 10 0 09 Dec 2022
Counterfactual Learning with General Data-generating Policies Yusuke Narita Kyohei Okumura Akihiro Shimizu Kohei Yata CML OffRL 27 0 0 04 Dec 2022
Counterfactual Learning with Multioutput Deep Kernels A. Caron G. Baio I. Manolopoulou BDL CML OffRL 25 1 0 20 Nov 2022
Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions Haanvid Lee Jongmin Lee Yunseon Choi Wonseok Jeon Byung-Jun Lee Yung-Kyun Noh Kee-Eung Kim OffRL 12 5 0 24 Oct 2022
Anytime-valid off-policy inference for contextual bandits Ian Waudby-Smith Lili Wu Aaditya Ramdas Nikos Karampatziakis Paul Mineiro OffRL 45 25 0 19 Oct 2022
Entropy Regularization for Population Estimation Ben Chugg Peter Henderson Jacob Goldin Daniel E. Ho 30 3 0 24 Aug 2022
Fast Offline Policy Optimization for Large Scale Recommendation Otmane Sakhi D. Rohde Alexandre Gilotte OffRL 50 3 0 08 Aug 2022
Efficient Heterogeneous Treatment Effect Estimation With Multiple Experiments and Multiple Outcomes Leon Yao Caroline Lo Israel Nir S. Tan Ariel Evnine Adam Lerer A. Peysakhovich CML 29 6 0 10 Jun 2022
Towards assessing agricultural land suitability with causal machine learning Georgios Giannarakis Vasileios Sitokonstantinou R. Lorilla C. Kontoes CML 34 20 0 27 Apr 2022
Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments Yafei Hu Junyi Geng Chen Wang John Keller Sebastian Scherer OffRL 36 15 0 07 Apr 2022
Doubly-Robust Estimation for Correcting Position-Bias in Click Feedback for Unbiased Learning to Rank Harrie Oosterhuis CML 37 27 0 31 Mar 2022
PAC-Bayesian Lifelong Learning For Multi-Armed Bandits H. Flynn David Reeb M. Kandemir Jan Peters 36 7 0 07 Mar 2022
Off-Policy Evaluation in Embedded Spaces Jaron J. R. Lee David Arbour Georgios Theocharous OffRL 25 3 0 05 Mar 2022
Interpretable Off-Policy Learning via Hyperbox Search D. Tschernutter Tobias Hatt Stefan Feuerriegel OffRL CML 50 6 0 04 Mar 2022
Safe Exploration for Efficient Policy Evaluation and Comparison Runzhe Wan Branislav Kveton Rui Song OffRL 38 10 0 26 Feb 2022
A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets C. Shi Runzhe Wan Ge Song Shuang Luo R. Song Hongtu Zhu OffRL 43 6 0 21 Feb 2022
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model Haruka Kiyohara Yuta Saito Tatsuya Matsuhiro Yusuke Narita N. Shimizu Yasuo Yamamoto OffRL 26 42 0 03 Feb 2022
Biases in In Silico Evaluation of Molecular Optimization Methods and Bias-Reduced Evaluation Methodology Hiroshi Kajino Kohei Miyaguchi Takayuki Osogami 64 1 0 28 Jan 2022
Off-Policy Evaluation Using Information Borrowing and Context-Based Switching Sutanoy Dasgupta Yabo Niu Kishan Panaganti D. Kalathil D. Pati Bani Mallick OffRL 31 0 0 18 Dec 2021
Enhancing Counterfactual Classification via Self-Training Ruijiang Gao Max Biggs Wei-Ju Sun Ligong Han CML OffRL 37 6 0 08 Dec 2021
Loss Functions for Discrete Contextual Pricing with Observational Data Max Biggs Ruijiang Gao Wei-Ju Sun 36 10 0 18 Nov 2021
Safe Data Collection for Offline and Online Policy Learning Ruihao Zhu Branislav Kveton OffRL 21 5 0 08 Nov 2021
Bandit Algorithms for Precision Medicine Yangyi Lu Ziping Xu Ambuj Tewari 66 11 0 10 Aug 2021
Stochastic Intervention for Causal Inference via Reinforcement Learning Tri Dung Duong Qian Li Guandong Xu CML 18 3 0 28 May 2021
Off-Policy Risk Assessment in Contextual Bandits Audrey Huang Liu Leqi Zachary Chase Lipton Kamyar Azizzadenesheli OffRL 32 36 0 18 Apr 2021
Benchmarks for Deep Off-Policy Evaluation Justin Fu Mohammad Norouzi Ofir Nachum George Tucker Ziyun Wang ... Yutian Chen Aviral Kumar Cosmin Paduraru Sergey Levine T. Paine ELM OffRL 35 100 0 30 Mar 2021
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality Tengyu Xu Zhuoran Yang Zhaoran Wang Yingbin Liang OffRL 49 24 0 23 Feb 2021
Nonparametric causal mediation analysis for stochastic interventional (in)direct effects N. Hejazi Kara E. Rudolph M. J. van der Laan Iván Díaz CML 16 18 0 14 Sep 2020
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation Yuta Saito Shunsuke Aihara Megumi Matsutani Yusuke Narita OffRL 24 73 0 17 Aug 2020
Batch Policy Learning in Average Reward Markov Decision Processes Peng Liao Zhengling Qi Runzhe Wan P. Klasnja Susan Murphy OffRL 36 81 0 23 Jul 2020
Self-Imitation Learning via Generalized Lower Bound Q-learning Yunhao Tang SSL 33 24 0 12 Jun 2020
Kinematic State Abstraction and Provably Efficient Rich-Observation Reinforcement Learning Dipendra Kumar Misra Mikael Henaff A. Krishnamurthy John Langford 33 151 0 13 Nov 2019
Adaptive Trade-Offs in Off-Policy Learning Mark Rowland Will Dabney Rémi Munos OffRL 25 22 0 16 Oct 2019
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning Nathan Kallus Masatoshi Uehara OffRL 26 88 0 12 Sep 2019