On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio Correction

2 June 2021

Papers citing "On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio Correction"

7 / 7 papers shown

Title
Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees Hsin-En Su Yen-Ju Chen Ping-Chun Hsieh Xi Liu OffRL 26 0 0 10 Dec 2022
Generalization Bounds of Nonconvex-(Strongly)-Concave Stochastic Minimax Optimization Siqi Zhang Yifan Hu Liang Zhang Niao He 30 4 0 28 May 2022
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch Shangtong Zhang Rémi Tachet des Combes Romain Laroche 30 10 0 04 Nov 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,963 0 04 May 2020
A Finite Time Analysis of Two Time-Scale Actor Critic Methods Yue Wu Weitong Zhang Pan Xu Quanquan Gu 90 146 0 04 May 2020
Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-Łojasiewicz Condition Hamed Karimi J. Nutini Mark W. Schmidt 139 1,204 0 16 Aug 2016
Off-Policy Actor-Critic T. Degris Martha White R. Sutton OffRL CML 163 220 0 22 May 2012