Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift

27 January 2019

Papers citing "Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift"

23 / 23 papers shown

Title
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning Zeyuan Liu Kai Yang Xiu Li OffRL 49 0 0 11 Jun 2024
Zero-Shot Reinforcement Learning from Low Quality Data Scott Jeen Tom Bewley Jonathan M. Cullen OffRL OnRL 43 1 0 26 Sep 2023
Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning Guoxi Zhang H. Kashima OffRL 29 2 0 29 Nov 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 26 5 0 28 Nov 2022
Grounding Aleatoric Uncertainty for Unsupervised Environment Design Minqi Jiang Michael Dennis Jack Parker-Holder Andrei Lupu Heinrich Küttler Edward Grefenstette Tim Rocktaschel Jakob N. Foerster 48 13 0 11 Jul 2022
Continual Learning In Environments With Polynomial Mixing Times Matthew D Riemer Sharath Chandra Raparthy Ignacio Cases G. Subbaraj M. P. Touzel Irina Rish CLL 41 8 0 13 Dec 2021
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 55 5 0 06 Nov 2021
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch Shangtong Zhang Rémi Tachet des Combes Romain Laroche 35 10 0 04 Nov 2021
Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm Raghuram Bharadwaj Diddigi Prateek Jain P. J S. Bhatnagar CML OffRL 19 3 0 19 Oct 2021
Offline Reinforcement Learning with Soft Behavior Regularization Haoran Xu Xianyuan Zhan Jianxiong Li Honglei Yin OffRL 31 31 0 14 Oct 2021
Nearly Horizon-Free Offline Reinforcement Learning Tongzheng Ren Jialian Li Bo Dai S. Du Sujay Sanghavi OffRL 32 49 0 25 Mar 2021
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality Tengyu Xu Zhuoran Yang Zhaoran Wang Yingbin Liang OffRL 47 24 0 23 Feb 2021
Forethought and Hindsight in Credit Assignment Veronica Chelu Doina Precup H. V. Hasselt 22 25 0 26 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 40 93 0 12 Oct 2020
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders Andrew Bennett Nathan Kallus Lihong Li Ali Mousavi OffRL 35 43 0 27 Jul 2020
Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning Shangtong Zhang Bo Liu Shimon Whiteson 29 38 0 22 Apr 2020
Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning Ali Mousavi Lihong Li Qiang Liu Denny Zhou OffRL 27 32 0 24 Mar 2020
Batch Stationary Distribution Estimation Junfeng Wen Bo Dai Lihong Li Dale Schuurmans OffRL 22 22 0 02 Mar 2020
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning Nathan Kallus Angela Zhou OffRL 38 58 0 11 Feb 2020
Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning Ming Yin Yu Wang OffRL 29 80 0 29 Jan 2020
Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation Ziyang Tang Yihao Feng Lihong Li Dengyong Zhou Qiang Liu OffRL 30 67 0 16 Oct 2019
Understanding the Curse of Horizon in Off-Policy Evaluation via Conditional Importance Sampling Yao Liu Pierre-Luc Bacon Emma Brunskill OffRL 22 45 0 15 Oct 2019
DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections Ofir Nachum Yinlam Chow Bo Dai Lihong Li OffRL 13 328 0 10 Jun 2019