v1v2v3v4v5 (latest)

Trust Region Policy Optimization

19 February 2015

Pieter Abbeel

Papers citing "Trust Region Policy Optimization"

50 / 2,008 papers shown

Title
Expected Policy Gradients K. Ciosek Shimon Whiteson 133 58 0 15 Jun 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 246 3,389 0 12 Jun 2017
Data-Efficient Policy Evaluation Through Behavior Policy Search Josiah P. Hanna Philip S. Thomas Peter Stone S. Niekum OffRL 87 43 0 12 Jun 2017
Parameter Space Noise for Exploration Matthias Plappert Rein Houthooft Prafulla Dhariwal Szymon Sidor Richard Y. Chen Xi Chen Tamim Asfour Pieter Abbeel Marcin Andrychowicz 122 597 0 06 Jun 2017
Actor-Critic for Linearly-Solvable Continuous MDP with Partially Known Dynamics Tomoki Nishi Prashant Doshi Michael R. James Danil Prokhorov 32 5 0 04 Jun 2017
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning S. Gu Timothy Lillicrap Zoubin Ghahramani Richard Turner Bernhard Schölkopf Sergey Levine OffRL 101 164 0 01 Jun 2017
The Atari Grand Challenge Dataset Vitaly Kurin Sebastian Nowozin Katja Hofmann Lucas Beyer Bastian Leibe OffRL 86 45 0 31 May 2017
Constrained Policy Optimization Joshua Achiam David Held Aviv Tamar Pieter Abbeel 205 1,339 0 30 May 2017
Multi-Modal Imitation Learning from Unstructured Demonstrations using Generative Adversarial Nets Karol Hausman Yevgen Chebotar S. Schaal Gaurav Sukhatme Joseph J. Lim GAN 99 150 0 30 May 2017
Fine-grained acceleration control for autonomous intersection management using deep reinforcement learning H. Mirzaei T. Givargis 41 8 0 30 May 2017
Learning End-to-end Multimodal Sensor Policies for Autonomous Navigation Guan-Horng Liu Avinash Siravuru Sai P. Selvaraj Manuela Veloso George Kantor 89 69 0 30 May 2017
Role Playing Learning for Socially Concomitant Mobile Robot Navigation Mingming Li Rui Jiang Shiping Ge Tong-heng Lee 65 41 0 29 May 2017
A unified view of entropy-regularized Markov decision processes Gergely Neu Anders Jonsson Vicencc Gómez 127 264 0 22 May 2017
Learning to Factor Policies and Action-Value Functions: Factored Action Space Representations for Deep Reinforcement learning Sahil Sharma A. Suresh Rahul Ramesh Balaraman Ravindran OffRL 56 36 0 20 May 2017
Automatic Goal Generation for Reinforcement Learning Agents Carlos Florensa David Held Xinyang Geng Pieter Abbeel 143 515 0 17 May 2017
Probabilistically Safe Policy Transfer David Held Zoe McCarthy Michael Zhang Fred Shentu Pieter Abbeel 86 19 0 15 May 2017
Discrete Sequential Prediction of Continuous Actions for Deep RL Luke Metz Julian Ibarz Navdeep Jaitly James Davidson BDL OffRL 96 121 0 14 May 2017
A General Safety Framework for Learning-Based Control in Uncertain Robotic Systems J. F. Fisac Anayo K. Akametalu Melanie Zeilinger Shahab Kaynama J. Gillula Claire Tomlin 100 498 0 03 May 2017
Mapping Instructions and Visual Observations to Actions with Reinforcement Learning Dipendra Kumar Misra John Langford Yoav Artzi 86 247 0 28 Apr 2017
Virtual to Real Reinforcement Learning for Autonomous Driving Xinlei Pan Yurong You Ziyan Wang Cewu Lu OffRL 121 338 0 13 Apr 2017
Composite Task-Completion Dialogue Policy Learning via Hierarchical Deep Reinforcement Learning Baolin Peng Xiujun Li Lihong Li Jianfeng Gao Asli Celikyilmaz Sungjin Lee Kam-Fai Wong BDL 109 190 0 10 Apr 2017
Data-efficient Deep Reinforcement Learning for Dexterous Manipulation I. Popov N. Heess Timothy Lillicrap Roland Hafner Gabriel Barth-Maron Matej Vecerík Thomas Lampe Yuval Tassa Tom Erez Martin Riedmiller OffRL 99 265 0 10 Apr 2017
Stochastic Neural Networks for Hierarchical Reinforcement Learning Carlos Florensa Yan Duan Pieter Abbeel BDL 109 361 0 10 Apr 2017
Stein Variational Policy Gradient Yang Liu Prajit Ramachandran Qiang Liu Jian-wei Peng 80 141 0 07 Apr 2017
Learning Visual Servoing with Deep Features and Fitted Q-Iteration Alex X. Lee Sergey Levine Pieter Abbeel SSL 49 73 0 31 Mar 2017
DART: Noise Injection for Robust Imitation Learning Michael Laskey Jonathan Lee Roy Fox Anca Dragan Ken Goldberg 235 249 0 27 Mar 2017
Deep Deterministic Policy Gradient for Urban Traffic Light Control Noe Casas 79 168 0 27 Mar 2017
InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations Yunzhu Li Jiaming Song Stefano Ermon 88 44 0 26 Mar 2017
Failures of Gradient-Based Deep Learning Shai Shalev-Shwartz Ohad Shamir Shaked Shammah ODL UQCV 135 201 0 23 Mar 2017
One-Shot Imitation Learning Yan Duan Marcin Andrychowicz Bradly C. Stadie Jonathan Ho Jonas Schneider Ilya Sutskever Pieter Abbeel Wojciech Zaremba OffRL 99 689 0 21 Mar 2017
Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World Joshua Tobin Rachel Fong Alex Ray Jonas Schneider Wojciech Zaremba Pieter Abbeel 301 2,987 0 20 Mar 2017
Learning to Navigate Cloth using Haptics Alexander Clegg Wenhao Yu Zackory M. Erickson Jie Tan Chenxi Liu Greg Turk 86 23 0 20 Mar 2017
Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play Sainbayar Sukhbaatar Zeming Lin Ilya Kostrikov Gabriel Synnaeve Arthur Szlam Rob Fergus SSL 104 338 0 15 Mar 2017
Sensor Fusion for Robot Control through Deep Reinforcement Learning Steven Bohez Tim Verbelen E. D. Coninck B. Vankeirsbilck Pieter Simoens Bart Dhoedt SSL 65 29 0 13 Mar 2017
Evolution Strategies as a Scalable Alternative to Reinforcement Learning Tim Salimans Jonathan Ho Xi Chen Szymon Sidor Ilya Sutskever 184 1,545 0 10 Mar 2017
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 1.2K 12,023 0 09 Mar 2017
Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning Yevgen Chebotar Karol Hausman Marvin Zhang Gaurav Sukhatme S. Schaal Sergey Levine 86 160 0 08 Mar 2017
Learning a Unified Control Policy for Safe Falling Visak C. V. Kumar Sehoon Ha Karen Liu 47 19 0 08 Mar 2017
Robust Adversarial Reinforcement Learning Lerrel Pinto James Davidson Rahul Sukthankar Abhinav Gupta OOD 163 864 0 08 Mar 2017
Towards Generalization and Simplicity in Continuous Control Aravind Rajeswaran Kendall Lowrey E. Todorov Sham Kakade OffRL 127 276 0 08 Mar 2017
Surprise-Based Intrinsic Motivation for Deep Reinforcement Learning Joshua Achiam S. Shankar Sastry 80 238 0 06 Mar 2017
Third-Person Imitation Learning Bradly C. Stadie Pieter Abbeel Ilya Sutskever 107 234 0 06 Mar 2017
EX2: Exploration with Exemplar Models for Deep Reinforcement Learning Justin Fu John D. Co-Reyes Sergey Levine OffRL 75 156 0 03 Mar 2017
FeUdal Networks for Hierarchical Reinforcement Learning A. Vezhnevets Simon Osindero Tom Schaul N. Heess Max Jaderberg David Silver Koray Kavukcuoglu FedML 114 910 0 03 Mar 2017
Deeply AggreVaTeD: Differentiable Imitation Learning for Sequential Prediction Wen Sun Arun Venkatraman Geoffrey J. Gordon Byron Boots J. Andrew Bagnell 136 236 0 03 Mar 2017
Deep Predictive Policy Training using Reinforcement Learning Ali Ghadirzadeh A. Maki Danica Kragic Mårten Björkman 94 130 0 02 Mar 2017
Reinforcement Learning for Pivoting Task Rika Antonova S. Cruciani Christian Smith Danica Kragic 67 68 0 01 Mar 2017
Bridging the Gap Between Value and Policy Based Reinforcement Learning Ofir Nachum Mohammad Norouzi Kelvin Xu Dale Schuurmans 208 478 0 28 Feb 2017
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja Haoran Tang Pieter Abbeel Sergey Levine 127 1,352 0 27 Feb 2017
Learning Control for Air Hockey Striking using Deep Reinforcement Learning Ayal Taitler N. Shimkin 57 10 0 26 Feb 2017