An Introduction to Deep Reinforcement Learning

30 November 2018

Vincent François-Lavet

Papers citing "An Introduction to Deep Reinforcement Learning"

50 / 178 papers shown

Title
Imitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation YuXuan Liu Abhishek Gupta Pieter Abbeel Sergey Levine 80 377 0 11 Jul 2017
ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games Yuandong Tian Qucheng Gong Wenling Shang Yuxin Wu C. L. Zitnick OffRL 44 126 0 04 Jul 2017
Noisy Networks for Exploration Meire Fortunato M. G. Azar Bilal Piot Jacob Menick Ian Osband ... Rémi Munos Demis Hassabis Olivier Pietquin Charles Blundell Shane Legg 71 890 0 30 Jun 2017
Value-Decomposition Networks For Cooperative Multi-Agent Learning P. Sunehag Guy Lever A. Gruslys Wojciech M. Czarnecki V. Zambaldi ... Marc Lanctot Nicolas Sonnerat Joel Z Leibo K. Tuyls T. Graepel 64 997 0 16 Jun 2017
An Overview of Multi-Task Learning in Deep Neural Networks Sebastian Ruder CVBM 98 2,817 0 15 Jun 2017
Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics Ken Kansky Tom Silver David A. Mély Mohamed Eldawy Miguel Lazaro-Gredilla Xinghua Lou N. Dorfman Szymon Sidor Scott Phoenix Dileep George AI4CE 65 233 0 14 Jun 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 487 129,831 0 12 Jun 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 101 3,243 0 12 Jun 2017
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments Ryan J. Lowe Yi Wu Aviv Tamar J. Harb Pieter Abbeel Igor Mordatch 118 4,441 0 07 Jun 2017
Parameter Space Noise for Exploration Matthias Plappert Rein Houthooft Prafulla Dhariwal Szymon Sidor Richard Y. Chen Xi Chen Tamim Asfour Pieter Abbeel Marcin Andrychowicz 45 594 0 06 Jun 2017
A simple neural network module for relational reasoning Adam Santoro David Raposo David Barrett Mateusz Malinowski Razvan Pascanu Peter W. Battaglia Timothy Lillicrap GNN NAI 110 1,610 0 05 Jun 2017
Towards Synthesizing Complex Programs from Input-Output Examples Xinyun Chen Chang-rui Liu D. Song NAI 23 11 0 05 Jun 2017
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning S. Gu Timothy Lillicrap Zoubin Ghahramani Richard Turner Bernhard Schölkopf Sergey Levine OffRL 67 165 0 01 Jun 2017
Counterfactual Multi-Agent Policy Gradients Jakob N. Foerster Gregory Farquhar Triantafyllos Afouras Nantas Nardelli Shimon Whiteson 54 2,062 0 24 May 2017
Automatic Goal Generation for Reinforcement Learning Agents Carlos Florensa David Held Xinyang Geng Pieter Abbeel 92 506 0 17 May 2017
Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak Pulkit Agrawal Alexei A. Efros Trevor Darrell LRM SSL 96 2,423 0 15 May 2017
Inferring and Executing Programs for Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Judy Hoffman Li Fei-Fei C. L. Zitnick Ross B. Girshick NAI 61 543 0 10 May 2017
Equivalence Between Policy Gradients and Soft Q-Learning John Schulman Xi Chen Pieter Abbeel OffRL 64 344 0 21 Apr 2017
Learning to Fly by Crashing Dhiraj Gandhi Lerrel Pinto Abhinav Gupta SSL 74 276 0 19 Apr 2017
Beating Atari with Natural Language Guided Reinforcement Learning Russell Kaplan Chris Sauer A. Sosa LM&Ro 43 69 0 18 Apr 2017
The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning A. Gruslys Will Dabney M. G. Azar Bilal Piot Marc G. Bellemare Rémi Munos 36 58 0 15 Apr 2017
Virtual to Real Reinforcement Learning for Autonomous Driving Xinlei Pan Yurong You Ziyan Wang Cewu Lu OffRL 46 336 0 13 Apr 2017
Stochastic Neural Networks for Hierarchical Reinforcement Learning Carlos Florensa Yan Duan Pieter Abbeel BDL 67 360 0 10 Apr 2017
Recurrent Environment Simulators Silvia Chiappa S. Racanière Daan Wierstra S. Mohamed 44 209 0 07 Apr 2017
One-Shot Imitation Learning Yan Duan Marcin Andrychowicz Bradly C. Stadie Jonathan Ho Jonas Schneider Ilya Sutskever Pieter Abbeel Wojciech Zaremba OffRL 66 684 0 21 Mar 2017
Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World Joshua Tobin Rachel Fong Alex Ray Jonas Schneider Wojciech Zaremba Pieter Abbeel 174 2,948 0 20 Mar 2017
Evolution Strategies as a Scalable Alternative to Reinforcement Learning Tim Salimans Jonathan Ho Xi Chen Szymon Sidor Ilya Sutskever 72 1,523 0 10 Mar 2017
Sample Efficient Feature Selection for Factored MDPs Z. Guo Emma Brunskill 23 11 0 09 Mar 2017
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 763 11,793 0 09 Mar 2017
Count-Based Exploration with Neural Density Models Georg Ostrovski Marc G. Bellemare Aaron van den Oord Rémi Munos 76 616 0 03 Mar 2017
Large-Scale Evolution of Image Classifiers Esteban Real Sherry Moore Andrew Selle Saurabh Saxena Y. Suematsu Jie Tan Quoc V. Le Alexey Kurakin 96 1,631 0 03 Mar 2017
A Laplacian Framework for Option Discovery in Reinforcement Learning Marlos C. Machado Marc G. Bellemare Michael Bowling 53 262 0 02 Mar 2017
Evolving Deep Neural Networks Risto Miikkulainen J. Liang Elliot Meyerson Aditya Rawal Daniel Fink ... B. Raju Hormoz Shahrzad Arshak Navruzyan Nigel P. Duffy Babak Hodjat 74 886 0 01 Mar 2017
Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning Jakob N. Foerster Nantas Nardelli Gregory Farquhar Triantafyllos Afouras Philip Torr Pushmeet Kohli Shimon Whiteson OffRL 175 597 0 28 Feb 2017
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja Haoran Tang Pieter Abbeel Sergey Levine 62 1,329 0 27 Feb 2017
DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker Matej Moravcík Martin Schmid Neil Burch Viliam Lisý Dustin Morrill Nolan Bard Trevor Davis Kevin Waugh Michael Bradley Johanson Michael Bowling BDL 93 905 0 06 Jan 2017
The Predictron: End-To-End Learning and Planning David Silver H. V. Hasselt Matteo Hessel Tom Schaul A. Guez ... Gabriel Dulac-Arnold David P. Reichert Neil C. Rabinowitz André Barreto T. Degris 50 289 0 28 Dec 2016
DeepMind Lab Charlie Beattie Joel Z Leibo Denis Teplyashin Tom Ward Marcus Wainwright ... Stephen Gaffney Helen King Demis Hassabis Shane Legg Stig Petersen 45 241 0 12 Dec 2016
Overcoming catastrophic forgetting in neural networks J. Kirkpatrick Razvan Pascanu Neil C. Rabinowitz J. Veness Guillaume Desjardins ... A. Grabska-Barwinska Demis Hassabis Claudia Clopath D. Kumaran R. Hadsell CLL 279 7,410 0 02 Dec 2016
Neural Combinatorial Optimization with Reinforcement Learning Irwan Bello Hieu H. Pham Quoc V. Le Mohammad Norouzi Samy Bengio 123 1,472 0 29 Nov 2016
Variational Intrinsic Control Karol Gregor Danilo Jimenez Rezende Daan Wierstra DRL OffRL 49 427 0 22 Nov 2016
Learning to reinforcement learn Jane X. Wang Z. Kurth-Nelson Dhruva Tirumala Hubert Soyer Joel Z Leibo Rémi Munos Charles Blundell D. Kumaran M. Botvinick OffRL 75 974 0 17 Nov 2016
Reinforcement Learning with Unsupervised Auxiliary Tasks Max Jaderberg Volodymyr Mnih Wojciech M. Czarnecki Tom Schaul Joel Z Leibo David Silver Koray Kavukcuoglu SSL 45 1,225 0 16 Nov 2016
CAD2RL: Real Single-Image Flight without a Single Real Image Fereshteh Sadeghi Sergey Levine SSL 290 814 0 13 Nov 2016
Learning to Navigate in Complex Environments Piotr Wojciech Mirowski Razvan Pascanu Fabio Viola Hubert Soyer Andy Ballard ... Ross Goroshin Laurent Sifre Koray Kavukcuoglu D. Kumaran R. Hadsell 72 876 0 11 Nov 2016
Understanding deep learning requires rethinking generalization Chiyuan Zhang Samy Bengio Moritz Hardt Benjamin Recht Oriol Vinyals HAI 271 4,620 0 10 Nov 2016
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 67 1,011 0 09 Nov 2016
Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic S. Gu Timothy Lillicrap Zoubin Ghahramani Richard Turner Sergey Levine OffRL BDL 71 344 0 07 Nov 2016
Learning to Act by Predicting the Future Alexey Dosovitskiy V. Koltun 130 280 0 06 Nov 2016
Combining policy gradient and Q-learning Brendan O'Donoghue Rémi Munos Koray Kavukcuoglu Volodymyr Mnih OffRL OnRL 53 139 0 05 Nov 2016