On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning

27 December 2017

Huizhen Yu

Papers citing "On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning"

4 / 4 papers shown

Title
Finite-Time Error Bounds for Greedy-GQ Yue Wang Yi Zhou Shaofeng Zou 31 1 0 06 Sep 2022
Greedy-GQ with Variance Reduction: Finite-time Analysis and Improved Complexity Shaocong Ma Ziyi Chen Yi Zhou Shaofeng Zou 17 11 0 30 Mar 2021
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning Shuang Qiu Zhuoran Yang Xiaohan Wei Jieping Ye Zhaoran Wang 33 38 0 23 Aug 2020
Actor-Critic Provably Finds Nash Equilibria of Linear-Quadratic Mean-Field Games Zuyue Fu Zhuoran Yang Yongxin Chen Zhaoran Wang 19 54 0 16 Oct 2019