Title
Information Theoretic Model Predictive Q-Learning M. Bhardwaj Ankur Handa Dieter Fox Byron Boots 59 23 0 31 Dec 2019
Monte-Carlo Tree Search for Policy Optimization Xiaobai Ma Katherine Driggs-Campbell Zongzhang Zhang Mykel J. Kochenderfer 106 6 0 23 Dec 2019
Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner Timothy Lillicrap Jimmy Ba Mohammad Norouzi VLM 130 1,371 0 03 Dec 2019
Imagined Value Gradients: Model-Based Policy Optimization with Transferable Latent Dynamics Models Arunkumar Byravan Jost Tobias Springenberg A. Abdolmaleki Roland Hafner Michael Neunert Thomas Lampe Noah Y. Siegel N. Heess Martin Riedmiller OffRL 71 41 0 09 Oct 2019
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control H. F. Song A. Abdolmaleki Jost Tobias Springenberg Aidan Clark Hubert Soyer ... Dhruva Tirumala N. Heess Dan Belov Martin Riedmiller M. Botvinick 91 125 0 26 Sep 2019
Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model Alex X. Lee Anusha Nagabandi Pieter Abbeel Sergey Levine OffRL BDL 85 382 0 01 Jul 2019
When to use parametric models in reinforcement learning? H. V. Hasselt Matteo Hessel John Aslanides 83 194 0 12 Jun 2019
Policy Gradient Search: Online Planning and Expert Iteration without Search Trees Thomas W. Anthony Robert Nishihara Philipp Moritz Tim Salimans John Schulman 68 30 0 07 Apr 2019
Hierarchical visuomotor control of humanoids J. Merel Arun Ahuja Vu Pham S. Tunyasuvunakool Siqi Liu Dhruva Tirumala N. Heess Greg Wayne 97 97 0 23 Nov 2018
Learning Latent Dynamics for Planning from Pixels Danijar Hafner Timothy Lillicrap Ian S. Fischer Ruben Villegas David R Ha Honglak Lee James Davidson BDL 92 1,446 0 12 Nov 2018
Plan Online, Learn Offline: Efficient Learning and Exploration via Model-Based Control Kendall Lowrey Aravind Rajeswaran Sham Kakade G. Haro Igor Mordatch OffRL 61 228 0 05 Nov 2018
How to Combine Tree-Search Methods in Reinforcement Learning Yonathan Efroni Gal Dalal B. Scherrer Shie Mannor 56 32 0 06 Sep 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 73 478 0 14 Jun 2018
A0C: Alpha Zero in Continuous Action Space Thomas M. Moerland Joost Broekens Aske Plaat Catholijn M. Jonker 83 48 0 24 May 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 237 1,605 0 05 Feb 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 317 8,406 0 04 Jan 2018
DeepMind Control Suite Yuval Tassa Yotam Doron Alistair Muldal Tom Erez Yazhe Li ... A. Abdolmaleki J. Merel Andrew Lefrancq Timothy Lillicrap Martin Riedmiller ELM LM&Ro BDL 150 1,143 0 02 Jan 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 535 19,265 0 20 Jul 2017
Thinking Fast and Slow with Deep Learning and Tree Search Thomas W. Anthony Zheng Tian David Barber 125 400 0 23 May 2017
Equivalence Between Policy Gradients and Soft Q-Learning John Schulman Xi Chen Pieter Abbeel OffRL 104 349 0 21 Apr 2017
Data-efficient Deep Reinforcement Learning for Dexterous Manipulation I. Popov N. Heess Timothy Lillicrap Roland Hafner Gabriel Barth-Maron Matej Vecerík Thomas Lampe Yuval Tassa Tom Erez Martin Riedmiller OffRL 88 265 0 10 Apr 2017
Particle Value Functions Chris J. Maddison Dieterich Lawson George Tucker N. Heess Arnaud Doucet A. Mnih Yee Whye Teh 60 15 0 16 Mar 2017
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja Haoran Tang Pieter Abbeel Sergey Levine 115 1,343 0 27 Feb 2017
Path Integral Guided Policy Search Yevgen Chebotar Mrinal Kalakrishnan Ali Yahya A. Li S. Schaal Sergey Levine 93 149 0 03 Oct 2016
Guided Policy Search as Approximate Mirror Descent William H. Montgomery Sergey Levine 75 126 0 15 Jul 2016
Taming the Noise in Reinforcement Learning via Soft Updates Roy Fox Ari Pakman Naftali Tishby 86 340 0 28 Dec 2015
Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs) Djork-Arné Clevert Thomas Unterthiner Sepp Hochreiter 305 5,534 0 23 Nov 2015
Learning Continuous Control Policies by Stochastic Value Gradients N. Heess Greg Wayne David Silver Timothy Lillicrap Yuval Tassa Tom Erez 97 560 0 30 Oct 2015
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 325 13,286 0 09 Sep 2015
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 279 6,796 0 19 Feb 2015