A Convergent Off-Policy Temporal Difference Algorithm

13 November 2019

Papers citing "A Convergent Off-Policy Temporal Difference Algorithm"

8 / 8 papers shown

Title
Regularized Off-Policy TD-Learning Bo Liu Sridhar Mahadevan Ji Liu OffRL 55 65 0 06 Jun 2020
Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift Carles Gelada Marc G. Bellemare OffRL 73 99 0 27 Jan 2019
Online Off-policy Prediction Sina Ghiassian D. Paul M. Fasoulakis R. Sutton Adam White OffRL 133 23 0 06 Nov 2018
A First Empirical Study of Emphatic Temporal Difference Learning Sina Ghiassian Banafsheh Rafiee R. Sutton OffRL 49 14 0 11 May 2017
Consistent On-Line Off-Policy Evaluation Assaf Hallak Shie Mannor OffRL 75 93 0 23 Feb 2017
Generalized Emphatic Temporal Difference Learning: Bias-Variance Analysis Assaf Hallak Aviv Tamar Rémi Munos Shie Mannor OffRL 107 56 0 17 Sep 2015
On Convergence of Emphatic Temporal-Difference Learning Huizhen Yu OffRL 87 73 0 08 Jun 2015
An Emphatic Approach to the Problem of Off-policy Temporal-Difference Learning R. Sutton A. R. Mahmood Martha White 98 272 0 14 Mar 2015