Target Network and Truncation Overcome The Deadly Triad in $Q$-Learning

v1v2 (latest)

Target Network and Truncation Overcome The Deadly Triad in $Q$ -Learning

5 March 2022

Zaiwei Chen

John-Paul Clarke

ArXiv (abs)PDF HTML

Papers citing "Target Network and Truncation Overcome The Deadly Triad in $Q$-Learning"

15 / 15 papers shown

Title
Understanding the theoretical properties of projected Bellman equation, linear Q-learning, and approximate value iteration Han-Dong Lim Donghwan Lee 58 0 0 15 Apr 2025
Dual Approximation Policy Optimization Zhihan Xiong Maryam Fazel Lin Xiao 72 1 0 02 Oct 2024
Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn Hongyao Tang Glen Berseth OffRL 97 2 0 07 Sep 2024
Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation Fengdi Che Chenjun Xiao Jincheng Mei Bo Dai Ramki Gummadi Oscar A Ramirez Christopher K Harris A. R. Mahmood Dale Schuurmans 78 5 0 31 May 2024
Enhancing Q-Learning with Large Language Model Heuristics Xiefeng Wu LRM 100 0 0 06 May 2024
Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation Donghwan Lee 86 0 0 24 Feb 2024
Regularized Q-Learning with Linear Function Approximation Jiachen Xi Alfredo Garcia P. Momcilovic 120 2 0 26 Jan 2024
Multi-Bellman operator for convergence of $Q$ -learning with linear function approximation Diogo S. Carvalho D. L. McPherson Francisco S. Melo 62 1 0 28 Sep 2023
Stability of Q-Learning Through Design and Optimism Sean P. Meyn 91 10 0 05 Jul 2023
Performance Bounds for Policy-Based Average Reward Reinforcement Learning Algorithms Yashaswini Murthy Mehrdad Moharrami R. Srikant OffRL 70 5 0 02 Feb 2023
Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation Gandharv Patil Prashanth L.A. Dheeraj M. Nagaraj Doina Precup 84 15 0 12 Oct 2022
A Note on Target Q-learning For Solving Finite MDPs with A Generative Oracle Ziniu Li Tian Xu Yang Yu 90 5 0 22 Mar 2022
The Efficacy of Pessimism in Asynchronous Q-Learning Yuling Yan Gen Li Yuxin Chen Jianqing Fan OffRL 159 41 0 14 Mar 2022
Regularized Q-learning Han-Dong Lim Donghwan Lee 102 11 0 11 Feb 2022
Rethinking ValueDice: Does It Really Improve Performance? Ziniu Li Tian Xu Yang Yu Zhimin Luo OffRL 79 17 0 05 Feb 2022