Trust Region Policy Optimization

19 February 2015

Pieter Abbeel

Papers citing "Trust Region Policy Optimization"

48 / 3,098 papers shown

Title
Generalizing Skills with Semi-Supervised Reinforcement Learning Chelsea Finn Tianhe Yu Justin Fu Pieter Abbeel Sergey Levine OffRL SSL 35 68 0 01 Dec 2016
Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU Mohammad Babaeizadeh I. Frosio Stephen Tyree Jason Clemons Jan Kautz OffRL 18 258 0 18 Nov 2016
#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning Haoran Tang Rein Houthooft Davis Foote Adam Stooke Xi Chen Yan Duan John Schulman F. Turck Pieter Abbeel OffRL 60 760 0 15 Nov 2016
Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control Natasha Jaques S. Gu Dzmitry Bahdanau José Miguel Hernández-Lobato Richard Turner Douglas Eck 38 169 0 09 Nov 2016
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 35 1,008 0 09 Nov 2016
Recursive Regression with Neural Networks: Approximating the HJI PDE Solution Vicencc Rubies-Royo Claire Tomlin 12 20 0 08 Nov 2016
Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic S. Gu Timothy Lillicrap Zoubin Ghahramani Richard Turner Sergey Levine OffRL BDL 32 343 0 07 Nov 2016
Modular Multitask Reinforcement Learning with Policy Sketches Jacob Andreas Dan Klein Sergey Levine OffRL 27 458 0 06 Nov 2016
Combining policy gradient and Q-learning Brendan O'Donoghue Rémi Munos Koray Kavukcuoglu Volodymyr Mnih OffRL OnRL 30 139 0 05 Nov 2016
Sample Efficient Actor-Critic with Experience Replay Ziyun Wang V. Bapst N. Heess Volodymyr Mnih Rémi Munos Koray Kavukcuoglu Nando de Freitas 19 755 0 03 Nov 2016
Deep Learning Approximation for Stochastic Control Problems Jiequn Han E. Weinan BDL 26 191 0 02 Nov 2016
Towards Lifelong Self-Supervision: A Deep Learning Direction for Robotics J. M. Wong 27 11 0 01 Nov 2016
Sim-to-Real Robot Learning from Pixels with Progressive Nets Andrei A. Rusu Matej Vecerík Thomas Rothörl N. Heess Razvan Pascanu R. Hadsell 39 532 0 13 Oct 2016
Reset-free Trial-and-Error Learning for Robot Damage Recovery Konstantinos Chatzilygeroudis Vassilis Vassiliades Jean-Baptiste Mouret 13 102 0 13 Oct 2016
Transfer from Simulation to Real World through Learning Deep Inverse Dynamics Model Paul Christiano Zain Shah Igor Mordatch Jonas Schneider T. Blackwell Joshua Tobin Pieter Abbeel Wojciech Zaremba PINN 24 248 0 11 Oct 2016
Connecting Generative Adversarial Networks and Actor-Critic Methods David Pfau Oriol Vinyals OffRL AI4CE 30 186 0 06 Oct 2016
EPOpt: Learning Robust Neural Network Policies Using Model Ensembles Aravind Rajeswaran Sarvjeet Ghotra Balaraman Ravindran Sergey Levine 16 349 0 05 Oct 2016
Reset-Free Guided Policy Search: Efficient Deep Reinforcement Learning with Stochastic Initial States William H. Montgomery Anurag Ajay Chelsea Finn Pieter Abbeel Sergey Levine OnRL 22 37 0 04 Oct 2016
Collective Robot Reinforcement Learning with Distributed Asynchronous Guided Policy Search Ali Yahya A. Li Mrinal Kalakrishnan Yevgen Chebotar Sergey Levine OffRL 23 155 0 03 Oct 2016
Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates S. Gu E. Holly Timothy Lillicrap Sergey Levine OffRL SSL 25 1,471 0 03 Oct 2016
Path Integral Guided Policy Search Yevgen Chebotar Mrinal Kalakrishnan Ali Yahya A. Li S. Schaal Sergey Levine 36 149 0 03 Oct 2016
Deep Reinforcement Learning for Tensegrity Robot Locomotion Marvin Zhang Xinyang Geng J. Bruce Ken Caluwaerts Massimo Vespignani Vytas SunSpiral Pieter Abbeel Sergey Levine 22 92 0 28 Sep 2016
Learning Modular Neural Network Policies for Multi-Task and Multi-Robot Transfer Coline Devin Abhishek Gupta Trevor Darrell Pieter Abbeel Sergey Levine OffRL 19 396 0 22 Sep 2016
A Sensorimotor Reinforcement Learning Framework for Physical Human-Robot Interaction Ali Ghadirzadeh Judith Butepage A. Maki Danica Kragic Mårten Björkman 25 49 0 27 Jul 2016
Guided Policy Search as Approximate Mirror Descent William H. Montgomery Sergey Levine 19 125 0 15 Jul 2016
Model-Free Trajectory-based Policy Optimization with Monotonic Improvement R. Akrour A. Abdolmaleki Hany Abdulsamad Jan Peters Gerhard Neumann 18 49 0 29 Jun 2016
Strategic Attentive Writer for Learning Macro-Actions Alexander A. Vezhnevets Volodymyr Mnih J. Agapiou Simon Osindero Alex Graves Oriol Vinyals Koray Kavukcuoglu 18 172 0 15 Jun 2016
Generative Adversarial Imitation Learning Jonathan Ho Stefano Ermon GAN 17 3,072 0 10 Jun 2016
Continuously Learning Neural Dialogue Management Pei-hao Su Milica Gasic N. Mrksic L. Rojas-Barahona Stefan Ultes David Vandyke Tsung-Hsien Wen S. Young 41 122 0 08 Jun 2016
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 18 5,029 0 05 Jun 2016
VIME: Variational Information Maximizing Exploration Rein Houthooft Xi Chen Yan Duan John Schulman F. Turck Pieter Abbeel 19 78 0 31 May 2016
Predicting Personal Traits from Facial Images using Convolutional Neural Networks Augmented with Facial Landmark Information Yoad Lewenberg Valliappa Chockalingam Satinder Singh Honglak Lee CVBM 22 21 0 29 May 2016
Model-Free Imitation Learning with Policy Optimization Jonathan Ho Jayesh K. Gupta Stefano Ermon 24 149 0 26 May 2016
Deep Learning for Reward Design to Improve Monte Carlo Tree Search in ATARI Games Xiaoxiao Guo Satinder Singh Richard L. Lewis Honglak Lee 24 55 0 24 Apr 2016
Benchmarking Deep Reinforcement Learning for Continuous Control Yan Duan Xi Chen Rein Houthooft John Schulman Pieter Abbeel OffRL 20 1,687 0 22 Apr 2016
HIRL: Hierarchical Inverse Reinforcement Learning for Long-Horizon Tasks with Delayed Rewards S. Krishnan Animesh Garg Richard Liaw Lauren Miller Florian T. Pokorny Ken Goldberg 36 40 0 21 Apr 2016
Continuous Deep Q-Learning with Model-based Acceleration S. Gu Timothy Lillicrap Ilya Sutskever Sergey Levine 25 1,008 0 02 Mar 2016
PLATO: Policy Learning using Adaptive Trajectory Optimization G. Kahn Tianhao Zhang Sergey Levine Pieter Abbeel 32 136 0 02 Mar 2016
Easy Monotonic Policy Iteration Joshua Achiam OffRL 16 0 0 29 Feb 2016
A review on locomotion robophysics: the study of movement at the intersection of robotics, soft matter and dynamical systems J. Aguilar Tingnan Zhang Feifei Qian Mark Kingsbury Benjamin W. McInroe ... Matthew Travers Ross L. Hatton Howie Choset P. Umbanhowar Daniel I. Goldman 9 236 0 12 Feb 2016
Value Iteration Networks Aviv Tamar Yi Wu G. Thomas Sergey Levine Pieter Abbeel 29 649 0 09 Feb 2016
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 31 8,767 0 04 Feb 2016
Memory-based control with recurrent neural networks N. Heess Jonathan J. Hunt Timothy Lillicrap David Silver 35 301 0 14 Dec 2015
State of the Art Control of Atari Games Using Shallow Reinforcement Learning Yitao Liang Marlos C. Machado Erik Talvitie Michael Bowling 21 113 0 04 Dec 2015
Adapting Deep Visuomotor Representations with Weak Pairwise Constraints Eric Tzeng Coline Devin Judy Hoffman Chelsea Finn Pieter Abbeel Sergey Levine Kate Saenko Trevor Darrell OOD 24 138 0 23 Nov 2015
Learning Continuous Control Policies by Stochastic Value Gradients N. Heess Greg Wayne David Silver Timothy Lillicrap Yuval Tassa Tom Erez 45 558 0 30 Oct 2015
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 49 13,120 0 09 Sep 2015
High-Dimensional Continuous Control Using Generalized Advantage Estimation John Schulman Philipp Moritz Sergey Levine Michael I. Jordan Pieter Abbeel OffRL 13 3,322 0 08 Jun 2015