Improving Policy Gradient by Exploring Under-appreciated Rewards

28 November 2016

Papers citing "Improving Policy Gradient by Exploring Under-appreciated Rewards"

24 / 24 papers shown

Title
Bridging the Gap Between Value and Policy Based Reinforcement Learning Ofir Nachum Mohammad Norouzi Kelvin Xu Dale Schuurmans 142 470 0 28 Feb 2017
An Alternative Softmax Operator for Reinforcement Learning Kavosh Asadi Michael L. Littman 38 10 0 16 Dec 2016
Reward Augmented Maximum Likelihood for Neural Structured Prediction Mohammad Norouzi Samy Bengio Zhiwen Chen Navdeep Jaitly M. Schuster Yonghui Wu Dale Schuurmans 74 253 0 01 Sep 2016
Unifying Count-Based Exploration and Intrinsic Motivation Marc G. Bellemare S. Srinivasan Georg Ostrovski Tom Schaul D. Saxton Rémi Munos 167 1,473 0 06 Jun 2016
TensorFlow: A system for large-scale machine learning Martín Abadi P. Barham Jianmin Chen Zhiwen Chen Andy Davis ... Vijay Vasudevan Pete Warden Martin Wicke Yuan Yu Xiaoqiang Zhang GNN AI4CE 379 18,331 0 27 May 2016
Deep Exploration via Bootstrapped DQN Ian Osband Charles Blundell Alexander Pritzel Benjamin Van Roy 89 1,305 0 15 Feb 2016
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 175 8,832 0 04 Feb 2016
Taming the Noise in Reinforcement Learning via Soft Updates Roy Fox Ari Pakman Naftali Tishby 55 338 0 28 Dec 2015
Neural GPUs Learn Algorithms Lukasz Kaiser Ilya Sutskever 77 369 0 25 Nov 2015
Neural Programmer-Interpreters Scott E. Reed Nando de Freitas 90 408 0 19 Nov 2015
Prioritized Experience Replay Tom Schaul John Quan Ioannis Antonoglou David Silver OffRL 210 3,786 0 18 Nov 2015
Neural Programmer: Inducing Latent Programs with Gradient Descent Arvind Neelakantan Quoc V. Le Ilya Sutskever ODL 67 263 0 16 Nov 2015
Deep Reinforcement Learning with Double Q-learning H. V. Hasselt A. Guez David Silver OffRL 148 7,621 0 22 Sep 2015
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models Bradly C. Stadie Sergey Levine Pieter Abbeel 86 504 0 03 Jul 2015
Pointer Networks Oriol Vinyals Meire Fortunato Navdeep Jaitly 107 3,045 0 09 Jun 2015
High-Dimensional Continuous Control Using Generalized Advantage Estimation John Schulman Philipp Moritz Sergey Levine Michael I. Jordan Pieter Abbeel OffRL 79 3,397 0 08 Jun 2015
Reinforcement Learning Neural Turing Machines - Revised Wojciech Zaremba Ilya Sutskever 57 165 0 04 May 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.3K 149,820 0 22 Dec 2014
Learning to Execute Wojciech Zaremba Ilya Sutskever ODL 83 559 0 17 Oct 2014
Sequence to Sequence Learning with Neural Networks Ilya Sutskever Oriol Vinyals Quoc V. Le AIMat 337 20,518 0 10 Sep 2014
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 435 27,260 0 01 Sep 2014
Reweighted Wake-Sleep J. Bornschein Yoshua Bengio BDL 75 183 0 11 Jun 2014
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 114 12,201 0 19 Dec 2013
Dynamic Policy Programming M. G. Azar Vicencc Gómez H. Kappen 92 123 0 12 Apr 2010