Generalized Emphatic Temporal Difference Learning: Bias-Variance
Analysis

Generalized Emphatic Temporal Difference Learning: Bias-Variance Analysis

17 September 2015

Papers citing "Generalized Emphatic Temporal Difference Learning: Bias-Variance Analysis"

15 / 15 papers shown

Title
Selective Credit Assignment Veronica Chelu Diana Borsa Doina Precup Hado van Hasselt 32 2 0 20 Feb 2022
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 55 5 0 06 Nov 2021
PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning Method Ziwei Guan Tengyu Xu Yingbin Liang 26 4 0 13 Oct 2021
An Empirical Comparison of Off-policy Prediction Learning Algorithms in the Four Rooms Environment Sina Ghiassian R. Sutton AAML OffRL 21 6 0 10 Sep 2021
An Empirical Comparison of Off-policy Prediction Learning Algorithms on the Collision Task Sina Ghiassian R. Sutton AAML OffRL 19 5 0 02 Jun 2021
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair Abhishek Gupta Murtaza Dalal Sergey Levine OffRL OnRL 46 592 0 16 Jun 2020
Per-decision Multi-step Temporal Difference Learning with Control Variates Kristopher De Asis R. Sutton 22 7 0 05 Jul 2018
Qualitative Measurements of Policy Discrepancy for Return-Based Deep Q-Network Wenjia Meng Qian Zheng L. Yang Pengfei Li Gang Pan 20 21 0 14 Jun 2018
Using Options and Covariance Testing for Long Horizon Off-Policy Policy Evaluation Z. Guo Philip S. Thomas Emma Brunskill OffRL 13 2 0 09 Mar 2017
Consistent On-Line Off-Policy Evaluation Assaf Hallak Shie Mannor OffRL 30 93 0 23 Feb 2017
Multi-step Off-policy Learning Without Importance Sampling Ratios A. R. Mahmood Huizhen Yu R. Sutton OffRL 24 54 0 09 Feb 2017
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 69 609 0 08 Jun 2016
Investigating practical linear temporal difference learning Adam White Martha White OffRL 16 41 0 28 Feb 2016
Q( $λ$ ) with Off-Policy Corrections Anna Harutyunyan Marc G. Bellemare T. Stepleton Rémi Munos OffRL 7 94 0 16 Feb 2016
Weak Convergence Properties of Constrained Emphatic Temporal-difference Learning with Constant and Slowly Diminishing Stepsize Huizhen Yu 25 29 0 23 Nov 2015