v1v2v3v4v5 (latest)

Trust Region Policy Optimization

19 February 2015

Pieter Abbeel

Papers citing "Trust Region Policy Optimization"

50 / 2,009 papers shown

Title
Efficient Reinforcement Learning from Demonstration Using Local Ensemble and Reparameterization with Split and Merge of Expert Policies Yu Wang Fang Liu 86 0 0 23 May 2022
Memory-efficient Reinforcement Learning with Value-based Knowledge Consolidation Qingfeng Lan Yangchen Pan Jun Luo A. R. Mahmood OffRL 124 8 0 22 May 2022
Co-design of Embodied Neural Intelligence via Constrained Evolution Zhiquan Wang Bedrich Benes A. H. Qureshi Christos Mousas 38 4 0 21 May 2022
ARLO: A Framework for Automated Reinforcement Learning Marco Mussi Davide Lombarda Alberto Maria Metelli F. Trovò Marcello Restelli OffRL 84 4 0 20 May 2022
A Review of Safe Reinforcement Learning: Methods, Theory and Applications Shangding Gu Longyu Yang Yali Du Guang Chen Florian Walter Jun Wang Alois C. Knoll OffRL AI4TS 271 258 0 20 May 2022
The Sufficiency of Off-Policyness and Soft Clipping: PPO is still Insufficient according to an Off-Policy Measure Xing Chen Dongcui Diao Hechang Chen Hengshuai Yao Haiyin Piao Zhixiao Sun Zhiwei Yang Randy Goebel Bei Jiang Yi-Ju Chang OffRL 146 9 0 20 May 2022
Dexterous Robotic Manipulation using Deep Reinforcement Learning and Knowledge Transfer for Complex Sparse Reward-based Tasks Qiang Wang Francisco Roldan Sanchez Robert McCarthy David Córdova Bulens Kevin McGuinness Noel E. O'Connor M. Wuthrich Felix Widmaier Stefan Bauer S. Redmond 109 15 0 19 May 2022
Qualitative Differences Between Evolutionary Strategies and Reinforcement Learning Methods for Control of Autonomous Agents Nicola Milano S. Nolfi 64 0 0 16 May 2022
Policy Gradient Method For Robust Reinforcement Learning Yue Wang Shaofeng Zou 132 77 0 15 May 2022
Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments Ryan Sullivan J. K. Terry Benjamin Black John P. Dickerson 92 8 0 14 May 2022
Developing cooperative policies for multi-stage reinforcement learning tasks J. Erskine Christopher F. Lehnert 52 10 0 11 May 2022
Diverse Imitation Learning via Self-Organizing Generative Models Arash Vahabpour Tianyi Wang Qiujing Lu Omead Brandon Pooladzandi V. Roychowdhury SSL 80 1 0 06 May 2022
Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization Hua Zheng Wei Xie 80 3 0 06 May 2022
Line of Sight Curvature for Missile Guidance using Reinforcement Meta-Learning B. Gaudet R. Furfaro 34 4 0 29 Apr 2022
Learning Eco-Driving Strategies at Signalized Intersections Vindula Jayawardana Cathy Wu 66 31 0 26 Apr 2022
From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation Yuzhe Qin Hao Su Xiaolong Wang 106 106 0 26 Apr 2022
Road Traffic Law Adaptive Decision-making for Self-Driving Vehicles Jiaxin Liu Wenhui Zhou Hong Wang Zhong Cao Wen-Hui Yu Cheng-Yu Zhao Ding Zhao Diange Yang Jun Li 114 23 0 25 Apr 2022
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models Ali Ghadirzadeh Petra Poklukar Karol Arndt Chelsea Finn Ville Kyrki Danica Kragic Mårten Björkman OffRL 64 2 0 18 Apr 2022
FedKL: Tackling Data Heterogeneity in Federated Reinforcement Learning by Penalizing KL Divergence Zhijie Xie Shenghui Song FedML 92 51 0 18 Apr 2022
Reinforcement Learning Policy Recommendation for Interbank Network Stability Alessio Brini G. Tedeschi Daniele Tantari 58 2 0 14 Apr 2022
Automatically Learning Fallback Strategies with Model-Free Reinforcement Learning in Safety-Critical Driving Scenarios Ugo Lecerf Christelle Yemdji Tchassi S. Aubert Pietro Michiardi 66 1 0 11 Apr 2022
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning Carl Qi Pieter Abbeel Aditya Grover OffRL 44 3 0 07 Apr 2022
Knowledge Infused Decoding Ruibo Liu Guoqing Zheng Shashank Gupta Radhika Gaonkar Chongyang Gao Soroush Vosoughi Milad Shokouhi Ahmed Hassan Awadallah KELM 90 14 0 06 Apr 2022
Configuration Path Control S. Pankov 41 1 0 05 Apr 2022
Learning Generalizable Dexterous Manipulation from Human Grasp Affordance Yueh-hua Wu Jiashun Wang Xiaolong Wang 148 62 0 05 Apr 2022
Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization Zihan Zhou Wei Fu Bingliang Zhang Yi Wu 85 30 0 04 Apr 2022
Asynchronous, Option-Based Multi-Agent Policy Gradient: A Conditional Reasoning Approach Xubo Lyu Amin Banitalebi-Dehkordi Mo Chen Yong Zhang 92 2 0 29 Mar 2022
Aggressive Quadrotor Flight Using Curiosity-Driven Reinforcement Learning Q. Sun Jinbao Fang Weixing Zheng Yang Tang 49 30 0 26 Mar 2022
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning Pascal Weber Daniel Wälchli Mustafa Zeqiri Petros Koumoutsakos CLL OffRL 76 7 0 24 Mar 2022
Asynchronous Reinforcement Learning for Real-Time Control of Physical Robots Yufeng Yuan Rupam Mahmood OffRL 110 19 0 23 Mar 2022
Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs Siow Meng Low Akshat Kumar Scott Sanner 70 3 0 23 Mar 2022
Your Policy Regularizer is Secretly an Adversary Rob Brekelmans Tim Genewein Jordi Grau-Moya Grégoire Delétang M. Kunesch Shane Legg Pedro A. Ortega AAML 87 14 0 23 Mar 2022
One After Another: Learning Incremental Skills for a Changing World Nur Muhammad (Mahi) Shafiullah Lerrel Pinto CLL 76 13 0 21 Mar 2022
Self-Imitation Learning from Demonstrations Georgiy Pshikhachev Dmitry Ivanov Vladimir Egorov A. Shpilman 56 6 0 21 Mar 2022
Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning Marc R. Schlichting S. Notter W. Fichter 30 4 0 21 Mar 2022
Meta-Reinforcement Learning for the Tuning of PI Controllers: An Offline Approach Daniel G. McClement Nathan P. Lawrence Johan U. Backstrom Philip D. Loewen M. Forbes R. Bhushan Gopaluni OffRL 64 25 0 17 Mar 2022
A Deep Reinforcement Learning-Based Caching Strategy for IoT Networks with Transient Data Hongda Wu Ali Nasehzadeh Ping Wang 28 14 0 16 Mar 2022
Combining imitation and deep reinforcement learning to accomplish human-level performance on a virtual foraging task Vittorio Giammarino Matthew F. Dunne Kylie N. Moore Michael Hasselmo Chantal E. Stern I. Paschalidis OffRL 83 5 0 11 Mar 2022
Dimensionality Reduction and Prioritized Exploration for Policy Search Marius Memmel Puze Liu Davide Tateo Jan Peters 133 4 0 09 Mar 2022
A Practical AoI Scheduler in IoT Networks with Relays Biplav Choudhury Prasenjit Karmakar Vijay K. Shah Jeffrey H. Reed 54 1 0 08 Mar 2022
Distributed Control using Reinforcement Learning with Temporal-Logic-Based Reward Shaping Ningyuan Zhang Wenliang Liu C. Belta 62 2 0 08 Mar 2022
The Unsurprising Effectiveness of Pre-Trained Vision Models for Control Simone Parisi Aravind Rajeswaran Senthil Purushwalkam Abhinav Gupta LM&Ro 139 198 0 07 Mar 2022
Safe Reinforcement Learning for Legged Locomotion Tsung-Yen Yang Tingnan Zhang Linda Luu Sehoon Ha Jie Tan Wenhao Yu 104 42 0 05 Mar 2022
A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems Rafael Figueiredo Prudencio Marcos R. O. A. Máximo Esther Luna Colombini OffRL 122 244 0 02 Mar 2022
Model-free Neural Lyapunov Control for Safe Robot Navigation Zikang Xiong Joe Eappen A. H. Qureshi Suresh Jagannathan 67 9 0 02 Mar 2022
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation Jing Dong Li Shen Ying Xu Baoxiang Wang 96 1 0 28 Feb 2022
Avalanche RL: a Continual Reinforcement Learning Library Nicolo Lucchesi Antonio Carta Vincenzo Lomonaco Davide Bacciu 82 6 0 28 Feb 2022
Neural-Progressive Hedging: Enforcing Constraints in Reinforcement Learning with Stochastic Programming Supriyo Ghosh L. Wynter Shiau Hong Lim D. Nguyen 68 0 0 27 Feb 2022
Learning to Schedule Heuristics for the Simultaneous Stochastic Optimization of Mining Complexes Yassine Yaakoubi R. Dimitrakopoulos 75 10 0 25 Feb 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 69 3 0 24 Feb 2022