Off-Policy Evaluation in Partially Observable Environments

Off-Policy Evaluation in Partially Observable Environments

9 September 2019

Guy Tennenholtz

Papers citing "Off-Policy Evaluation in Partially Observable Environments"

14 / 14 papers shown

Title
Long-term Causal Inference Under Persistent Confounding via Data Combination Guido Imbens Nathan Kallus Xiaojie Mao Yuhao Wang CML 67 47 0 15 Feb 2022
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 68 185 0 22 Aug 2019
Counterfactual Off-Policy Evaluation with Gumbel-Max Structural Causal Models Michael Oberst David Sontag CML OffRL 49 170 0 14 May 2019
Batch Policy Learning under Constraints Hoang Minh Le Cameron Voloshin Yisong Yue OffRL 56 328 0 20 Mar 2019
Deconfounding Reinforcement Learning in Observational Settings Chaochao Lu Bernhard Schölkopf José Miguel Hernández-Lobato CML OOD 117 73 0 26 Dec 2018
Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation Qiang Liu Lihong Li Ziyang Tang Dengyong Zhou OffRL 121 354 0 29 Oct 2018
Evaluating Reinforcement Learning Algorithms in Observational Health Settings Omer Gottesman Fredrik D. Johansson Joshua Meier Jack Dent Donghun Lee ... Matthieu Komorowski A. Faisal Leo Anthony Celi David Sontag Finale Doshi-Velez OOD OffRL 29 133 0 31 May 2018
Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution Judea Pearl CML 61 330 0 11 Jan 2018
Causal Effect Inference with Deep Latent-Variable Models Christos Louizos Uri Shalit Joris Mooij David Sontag R. Zemel Max Welling CML BDL 167 739 0 24 May 2017
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 130 611 0 08 Jun 2016
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning Philip S. Thomas Emma Brunskill OffRL 296 573 0 04 Apr 2016
Doubly Robust Off-policy Value Evaluation for Reinforcement Learning Nan Jiang Lihong Li OffRL 167 621 0 11 Nov 2015
Deep Recurrent Q-Learning for Partially Observable MDPs Matthew J. Hausknecht Peter Stone 102 1,668 0 23 Jul 2015
Doubly Robust Policy Evaluation and Learning Miroslav Dudík John Langford Lihong Li OffRL 219 694 0 23 Mar 2011