v1v2 (latest)

MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL

11 October 2024

C. Voelcker

Marcel Hussing

Eric Eaton

Amir-massoud Farahmand

Igor Gilitschenski

ArXiv (abs)PDF HTML

Papers citing "MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL"

24 / 74 papers shown

Title
Revisiting Fundamentals of Experience Replay W. Fedus Prajit Ramachandran Rishabh Agarwal Yoshua Bengio Hugo Larochelle Mark Rowland Will Dabney KELM OffRL 97 242 0 13 Jul 2020
Data-Efficient Reinforcement Learning with Self-Predictive Representations Max Schwarzer Ankesh Anand Rishab Goel R. Devon Hjelm Aaron Courville Philip Bachman 114 321 0 12 Jul 2020
Representations for Stable Off-Policy Reinforcement Learning Dibya Ghosh Marc G. Bellemare OffRL SSL OOD 79 43 0 10 Jul 2020
dm_control: Software and Tasks for Continuous Control Yuval Tassa S. Tunyasuvunakool Alistair Muldal Yotam Doron Piotr Trochim ... Steven Bohez J. Merel Tom Erez Timothy Lillicrap N. Heess LM&Ro 153 419 0 22 Jun 2020
Bootstrap your own latent: A new approach to self-supervised Learning Jean-Bastien Grill Florian Strub Florent Altché Corentin Tallec Pierre Harvey Richemond ... M. G. Azar Bilal Piot Koray Kavukcuoglu Rémi Munos Michal Valko SSL 475 6,864 0 13 Jun 2020
Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning Maximilian Igl Gregory Farquhar Jelena Luketina Wendelin Boehmer Shimon Whiteson 133 88 0 10 Jun 2020
MOPO: Model-based Offline Policy Optimization Tianhe Yu G. Thomas Lantao Yu Stefano Ermon James Zou Sergey Levine Chelsea Finn Tengyu Ma OffRL 105 775 0 27 May 2020
Maxmin Q-learning: Controlling the Estimation Bias of Q-learning Qingfeng Lan Yangchen Pan Alona Fyshe Martha White 73 180 0 16 Feb 2020
Frequency-based Search-control in Dyna Yangchen Pan Jincheng Mei Amir-massoud Farahmand 51 15 0 14 Feb 2020
Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner Timothy Lillicrap Jimmy Ba Mohammad Norouzi VLM 185 1,376 0 03 Dec 2019
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning Tianhe Yu Deirdre Quillen Zhanpeng He Ryan Julian Avnish Narayan Hayden Shively Adithya Bellathur Karol Hausman Chelsea Finn Sergey Levine OffRL 314 1,182 0 24 Oct 2019
When to Trust Your Model: Model-Based Policy Optimization Michael Janner Justin Fu Marvin Zhang Sergey Levine OffRL 129 963 0 19 Jun 2019
Hill Climbing on Value Estimates for Search-control in Dyna Yangchen Pan Hengshuai Yao Amir-massoud Farahmand Martha White 87 18 0 18 Jun 2019
Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto David Meger Doina Precup OffRL BDL 299 1,626 0 07 Dec 2018
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion Jacob Buckman Danijar Hafner George Tucker E. Brevdo Honglak Lee 97 333 0 04 Jul 2018
Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models Kurtland Chua Roberto Calandra R. McAllister Sergey Levine BDL 237 1,289 0 30 May 2018
Addressing Function Approximation Error in Actor-Critic Methods Scott Fujimoto H. V. Hoof David Meger OffRL 335 5,244 0 26 Feb 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 333 8,455 0 04 Jan 2018
Towards Deep Learning Models Resistant to Adversarial Attacks Aleksander Madry Aleksandar Makelov Ludwig Schmidt Dimitris Tsipras Adrian Vladu SILM OOD 365 12,169 0 19 Jun 2017
Robust Adversarial Reinforcement Learning Lerrel Pinto James Davidson Rahul Sukthankar Abhinav Gupta OOD 148 863 0 08 Mar 2017
The Predictron: End-To-End Learning and Planning David Silver H. V. Hasselt Matteo Hessel Tom Schaul A. Guez ... Gabriel Dulac-Arnold David P. Reichert Neil C. Rabinowitz André Barreto T. Degris 90 292 0 28 Dec 2016
Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning Oron Anschel Nir Baram N. Shimkin 102 318 0 07 Nov 2016
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 400 13,315 0 09 Sep 2015
An Emphatic Approach to the Problem of Off-policy Temporal-Difference Learning R. Sutton A. R. Mahmood Martha White 114 272 0 14 Mar 2015