Evolved Policy Gradients

13 February 2018

Pieter Abbeel

Papers citing "Evolved Policy Gradients"

33 / 33 papers shown

Title
Task-driven Image Fusion with Learnable Fusion Loss Haowen Bai Jiangshe Zhang Zixiang Zhao Yichen Wu Lilun Deng Yukun Cui Tao Feng Shuang Xu 174 2 0 04 Dec 2024
Effective Regularization Through Loss-Function Metalearning Santiago Gonzalez Xin Qiu Risto Miikkulainen 105 0 0 02 Oct 2020
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling Russell Mendonca Xinyang Geng Chelsea Finn Sergey Levine OOD OffRL 78 40 0 12 Jun 2020
Meta-Learning Update Rules for Unsupervised Representation Learning Luke Metz Niru Maheswaranathan Brian Cheung Jascha Narain Sohl-Dickstein SSL OOD 72 123 0 31 Mar 2018
Some Considerations on Learning to Explore via Meta-Reinforcement Learning Bradly C. Stadie Ge Yang Rein Houthooft Xi Chen Yan Duan Yuhuai Wu Pieter Abbeel Ilya Sutskever LRM 70 115 0 03 Mar 2018
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research Matthias Plappert Marcin Andrychowicz Alex Ray Bob McGrew Bowen Baker ... Joshua Tobin Maciek Chociej Peter Welinder Vikash Kumar Wojciech Zaremba 63 568 0 26 Feb 2018
One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning Tianhe Yu Chelsea Finn Annie Xie Sudeep Dasari Tianhao Zhang Pieter Abbeel Sergey Levine 64 360 0 05 Feb 2018
Building machines that adapt and compute like brains Brenden M. Lake J. Tenenbaum AI4CE FedML NAI AILaw 317 887 0 11 Nov 2017
Meta-Learning and Universality: Deep Representations and Gradient Descent can Approximate any Learning Algorithm Chelsea Finn Sergey Levine SSL 89 223 0 31 Oct 2017
One-Shot Visual Imitation Learning via Meta-Learning Chelsea Finn Tianhe Yu Tianhao Zhang Pieter Abbeel Sergey Levine SSL 117 561 0 14 Sep 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 446 19,006 0 20 Jul 2017
A Simple Neural Attentive Meta-Learner Nikhil Mishra Mostafa Rohaninejad Xi Chen Pieter Abbeel OOD 68 199 0 11 Jul 2017
Hindsight Experience Replay Marcin Andrychowicz Dwight Crow Alex Ray Jonas Schneider Rachel Fong Peter Welinder Bob McGrew Joshua Tobin Pieter Abbeel Wojciech Zaremba OffRL 245 2,326 0 05 Jul 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 134 3,288 0 12 Jun 2017
Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak Pulkit Agrawal Alexei A. Efros Trevor Darrell LRM SSL 106 2,433 0 15 May 2017
Equivalence Between Policy Gradients and Soft Q-Learning John Schulman Xi Chen Pieter Abbeel OffRL 80 346 0 21 Apr 2017
Evolution Strategies as a Scalable Alternative to Reinforcement Learning Tim Salimans Jonathan Ho Xi Chen Szymon Sidor Ilya Sutskever 92 1,537 0 10 Mar 2017
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 806 11,894 0 09 Mar 2017
Count-Based Exploration with Neural Density Models Georg Ostrovski Marc G. Bellemare Aaron van den Oord Rémi Munos 84 620 0 03 Mar 2017
Bridging the Gap Between Value and Policy Based Reinforcement Learning Ofir Nachum Mohammad Norouzi Kelvin Xu Dale Schuurmans 154 470 0 28 Feb 2017
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja Haoran Tang Pieter Abbeel Sergey Levine 95 1,340 0 27 Feb 2017
Learning to reinforcement learn Jane X. Wang Z. Kurth-Nelson Dhruva Tirumala Hubert Soyer Joel Z Leibo Rémi Munos Charles Blundell D. Kumaran M. Botvinick OffRL 97 978 0 17 Nov 2016
#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning Haoran Tang Rein Houthooft Davis Foote Adam Stooke Xi Chen Yan Duan John Schulman F. Turck Pieter Abbeel OffRL 89 771 0 15 Nov 2016
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 76 1,015 0 09 Nov 2016
Combining policy gradient and Q-learning Brendan O'Donoghue Rémi Munos Koray Kavukcuoglu Volodymyr Mnih OffRL OnRL 66 139 0 05 Nov 2016
Learning to learn by gradient descent by gradient descent Marcin Andrychowicz Misha Denil Sergio Gomez Colmenarejo Matthew W. Hoffman David Pfau Tom Schaul Brendan Shillingford Nando de Freitas 99 2,006 0 14 Jun 2016
Deep Learning for Reward Design to Improve Monte Carlo Tree Search in ATARI Games Xiaoxiao Guo Satinder Singh Richard L. Lewis Honglak Lee 47 55 0 24 Apr 2016
Benchmarking Deep Reinforcement Learning for Continuous Control Yan Duan Xi Chen Rein Houthooft John Schulman Pieter Abbeel OffRL 79 1,693 0 22 Apr 2016
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 314 13,234 0 09 Sep 2015
Gradient Estimation Using Stochastic Computation Graphs John Schulman N. Heess T. Weber Pieter Abbeel OffRL 133 393 0 17 Jun 2015
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 277 6,764 0 19 Feb 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.6K 150,006 0 22 Dec 2014
Model-Based Bayesian Exploration R. Dearden N. Friedman D. Andre 77 288 0 23 Jan 2013