v1v2v3v4v5 (latest)

Trust Region Policy Optimization

19 February 2015

Pieter Abbeel

Papers citing "Trust Region Policy Optimization"

50 / 2,008 papers shown

Title
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning Sebastian Curi Felix Berkenkamp Andreas Krause 132 85 0 15 Jun 2020
Self-Imitation Learning via Generalized Lower Bound Q-learning Yunhao Tang SSL 115 24 0 12 Jun 2020
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling Russell Mendonca Xinyang Geng Chelsea Finn Sergey Levine OOD OffRL 100 40 0 12 Jun 2020
SAMBA: Safe Model-Based & Active Reinforcement Learning Alexander I. Cowen-Rivers Daniel Palenicek Vincent Moens Mohammed Abdullah Aivar Sootla Jun Wang Haitham Bou-Ammar 87 45 0 12 Jun 2020
Improving GAN Training with Probability Ratio Clipping and Sample Reweighting Yue Wu Pan Zhou A. Wilson Eric Xing Zhiting Hu GAN 118 36 0 12 Jun 2020
Zeroth-Order Supervised Policy Improvement Hao Sun Ziping Xu Yuhang Song Meng Fang Jiechao Xiong Bo Dai Bolei Zhou OffRL 59 9 0 11 Jun 2020
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study Marcin Andrychowicz Anton Raichuk Piotr Stańczyk Manu Orsini Sertan Girgin ... Matthieu Geist Olivier Pietquin Marcin Michalski Sylvain Gelly Olivier Bachem OffRL 95 226 0 10 Jun 2020
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts R. Akrour Davide Tateo Jan Peters 60 22 0 10 Jun 2020
Modeling Human Driving Behavior through Generative Adversarial Imitation Learning Raunak P. Bhattacharyya Blake Wulfe Derek J. Phillips Alex Kuefler Jeremy Morton Ransalu Senanayake Mykel Kochenderfer 88 103 0 10 Jun 2020
Variational Model-based Policy Optimization Yinlam Chow Brandon Cui Moonkyung Ryu Mohammad Ghavamzadeh OffRL 69 12 0 09 Jun 2020
Meta-Learning Bandit Policies by Gradient Ascent Branislav Kveton Martin Mladenov Chih-Wei Hsu Manzil Zaheer Csaba Szepesvári Craig Boutilier 76 9 0 09 Jun 2020
Constrained episodic reinforcement learning in concave-convex and knapsack settings Kianté Brantley Miroslav Dudík Thodoris Lykouris Sobhan Miryoosefi Max Simchowitz Aleksandrs Slivkins Wen Sun OffRL 103 52 0 09 Jun 2020
Primal Wasserstein Imitation Learning Robert Dadashi Léonard Hussenot Matthieu Geist Olivier Pietquin 113 129 0 08 Jun 2020
ColdGANs: Taming Language GANs with Cautious Sampling Strategies Thomas Scialom Paul-Alexis Dray Sylvain Lamprier Benjamin Piwowarski Jacopo Staiano GAN SyDa 71 18 0 08 Jun 2020
A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs with Near-optimal Regret Mehdi Jafarnia-Jahromi Chen-Yu Wei Rahul Jain Haipeng Luo 118 7 0 08 Jun 2020
A Decentralized Policy Gradient Approach to Multi-task Reinforcement Learning Sihan Zeng Aqeel Anwar Thinh T. Doan A. Raychowdhury Justin Romberg 88 40 0 08 Jun 2020
Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample Complexity Zihan Zhang Yuanshuo Zhou Xiangyang Ji 85 36 0 06 Jun 2020
Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization T. Matsushima Hiroki Furuta Y. Matsuo Ofir Nachum S. Gu OffRL 126 150 0 05 Jun 2020
Policy Learning of MDPs with Mixed Continuous/Discrete Variables: A Case Study on Model-Free Control of Markovian Jump Systems Joao Paulo Jansch-Porto Bin Hu Geir Dullerud 74 16 0 04 Jun 2020
Model-Based Generalization Under Parameter Uncertainty Using Path Integral Control Ian Abraham Ankur Handa Nathan D. Ratliff Kendall Lowrey Todd Murphey Dieter Fox 71 39 0 04 Jun 2020
Acme: A Research Framework for Distributed Reinforcement Learning Matthew W. Hoffman Bobak Shahriari John Aslanides Gabriel Barth-Maron Nikola Momchev ... Srivatsan Srinivasan A. Cowie Ziyun Wang Bilal Piot Nando de Freitas 143 226 0 01 Jun 2020
Variational Reward Estimator Bottleneck: Learning Robust Reward Estimator for Multi-Domain Task-Oriented Dialog Jeiyoon Park Chanhee Lee Kuekyeng Kim Heuiseok Lim OffRL 42 0 0 31 May 2020
Complex Sequential Understanding through the Awareness of Spatial and Temporal Concepts Bo Pang Kaiwen Zha Hanwen Cao Jiajun Tang Minghui Yu Cewu Lu 77 25 0 30 May 2020
MOPO: Model-based Offline Policy Optimization Tianhe Yu G. Thomas Lantao Yu Stefano Ermon James Zou Sergey Levine Chelsea Finn Tengyu Ma OffRL 119 776 0 27 May 2020
A reinforcement learning approach to rare trajectory sampling Dominic C. Rose Jamie F. Mair J. P. Garrahan 83 52 0 26 May 2020
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO Logan Engstrom Andrew Ilyas Shibani Santurkar Dimitris Tsipras Firdaus Janoos L. Rudolph Aleksander Madry AAML 93 230 0 25 May 2020
Generator and Critic: A Deep Reinforcement Learning Approach for Slate Re-ranking in E-commerce Jianxiong Wei Anxiang Zeng Yueqiu Wu P. Guo Q. Hua Qingpeng Cai OffRL 74 9 0 25 May 2020
Gradient Monitored Reinforcement Learning Mohammed Sharafath Abdul Hameed Gavneet Singh Chadha Andreas Schwung S. Ding 99 11 0 25 May 2020
LEAF: Latent Exploration Along the Frontier Homanga Bharadhwaj Animesh Garg Florian Shkurti 72 1 0 21 May 2020
Novel Policy Seeking with Constrained Optimization Hao Sun Zhenghao Peng Bo Dai Jian Guo Dahua Lin Bolei Zhou 138 13 0 21 May 2020
Mirror Descent Policy Optimization Manan Tomar Lior Shani Yonathan Efroni Mohammad Ghavamzadeh 164 87 0 20 May 2020
A Survey of Reinforcement Learning Algorithms for Dynamically Varying Environments Sindhu Padakandla 83 155 0 19 May 2020
Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets Cong Fei Bin Wang Yuzheng Zhuang Zongzhang Zhang Jianye Hao Hongbo Zhang Xuewu Ji Wulong Liu 69 28 0 19 May 2020
Model-Augmented Actor-Critic: Backpropagating through Paths I. Clavera Yao Fu Pieter Abbeel 94 88 0 16 May 2020
Lifelong Control of Off-grid Microgrid with Model Based Reinforcement Learning Simone Totaro Ioannis Boukas Anders Jonsson Bertrand Cornélusse 29 31 0 16 May 2020
A Distributional View on Multi-Objective Policy Optimization A. Abdolmaleki Sandy H. Huang Leonard Hasenclever Michael Neunert H. F. Song Martina Zambelli M. Martins N. Heess R. Hadsell Martin Riedmiller 78 76 0 15 May 2020
On the Global Convergence Rates of Softmax Policy Gradient Methods Jincheng Mei Chenjun Xiao Csaba Szepesvári Dale Schuurmans 173 294 0 13 May 2020
Adaptive Smoothing Path Integral Control Dominik Thalmeier H. Kappen Simone Totaro Vicencc Gómez 24 7 0 13 May 2020
MOReL : Model-Based Offline Reinforcement Learning Rahul Kidambi Aravind Rajeswaran Praneeth Netrapalli Thorsten Joachims OffRL 130 679 0 12 May 2020
Smooth Exploration for Robotic Reinforcement Learning Antonin Raffin Jens Kober F. Stulp 83 58 0 12 May 2020
Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and Competitive Environments Baiming Chen Mengdi Xu Zuxin Liu Liang-Sheng Li Ding Zhao 70 37 0 11 May 2020
Delay-Aware Model-Based Reinforcement Learning for Continuous Control Baiming Chen Mengdi Xu Liang-Sheng Li Ding Zhao OffRL 143 65 0 11 May 2020
CARL: Controllable Agent with Reinforcement Learning for Quadruped Locomotion Ying-Sheng Luo Jonathan Hans Soeseno Trista Pei-chun Chen Wei-Chao Chen 81 15 0 07 May 2020
A Survey of Algorithms for Black-Box Safety Validation of Cyber-Physical Systems Anthony Corso Robert J. Moss Mark Koren Ritchie Lee Mykel J. Kochenderfer 97 176 0 06 May 2020
Robotic Arm Control and Task Training through Deep Reinforcement Learning Andrea Franceschetti E. Tosello Nicola Castaman Stefano Ghidoni 56 32 0 06 May 2020
MARS: Malleable Actor-Critic Reinforcement Learning Scheduler Betis Baheri Jake Tronge B. Fang Ang Li Vipin Chaudhary Qiang Guan 25 1 0 04 May 2020
Hierarchical Decomposition of Nonlinear Dynamics and Control for System Identification and Policy Distillation Hany Abdulsamad Jan Peters 29 9 0 04 May 2020
A Finite Time Analysis of Two Time-Scale Actor Critic Methods Yue Wu Weitong Zhang Pan Xu Quanquan Gu 190 149 0 04 May 2020
Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey Ammar Haydari Y. Yilmaz AI4TS 114 469 0 02 May 2020
Reinforcement Learning with Augmented Data Michael Laskin Kimin Lee Adam Stooke Lerrel Pinto Pieter Abbeel A. Srinivas OffRL 168 661 0 30 Apr 2020