Proximal Policy Optimization Algorithms

20 July 2017

Papers citing "Proximal Policy Optimization Algorithms"

50 / 6,731 papers shown

Title
AutoLoss: Learning Discrete Schedules for Alternate Optimization Haowen Xu Huan Zhang Zhiting Hu Xiaodan Liang Ruslan Salakhutdinov Eric P. Xing 26 30 0 04 Oct 2018
Episodic Curiosity through Reachability Nikolay Savinov Anton Raichuk Raphaël Marinier Damien Vincent Marc Pollefeys Timothy Lillicrap Sylvain Gelly 14 266 0 04 Oct 2018
Learning Particle Dynamics for Manipulating Rigid Bodies, Deformable Objects, and Fluids Yunzhu Li Jiajun Wu Russ Tedrake J. Tenenbaum Antonio Torralba PINN AI4CE 32 389 0 03 Oct 2018
CEM-RL: Combining evolutionary and gradient-based methods for policy search Aloïs Pourchot Olivier Sigaud 32 159 0 02 Oct 2018
The Dreaming Variational Autoencoder for Reinforcement Learning Environments Per-Arne Andersen M. G. Olsen Ole-Christoffer Granmo DRL 22 17 0 02 Oct 2018
ChainQueen: A Real-Time Differentiable Physical Simulator for Soft Robotics Yuanming Hu Jiancheng Liu Andrew Spielberg J. Tenenbaum William T. Freeman Jiajun Wu Daniela Rus Wojciech Matusik AI4CE 16 260 0 02 Oct 2018
Directed-Info GAIL: Learning Hierarchical Policies from Unsegmented Demonstrations using Directed Information Arjun Sharma Mohit Sharma Nicholas Rhinehart Kris M. Kitani 21 68 0 29 Sep 2018
Fast Motion Planning for High-DOF Robot Systems Using Hierarchical System Identification Biao Jia Zherong Pan Tianyi Zhou 14 5 0 21 Sep 2018
Adversarial Imitation via Variational Inverse Reinforcement Learning A. H. Qureshi Byron Boots Michael C. Yip 14 61 0 17 Sep 2018
Model-Based Reinforcement Learning via Meta-Policy Optimization I. Clavera Jonas Rothfuss John Schulman Yasuhiro Fujita Tamim Asfour Pieter Abbeel 21 224 0 14 Sep 2018
Reinforcement Learning in Topology-based Representation for Human Body Movement with Whole Arm Manipulation Weihao Yuan Kaiyu Hang Haoran Song Danica Kragic M. Y. Wang J. A. Stork 6 26 0 12 Sep 2018
Safe Navigation with Human Instructions in Complex Scenes Zhe Hu Jia Pan Tingxiang Fan Ruigang Yang Tianyi Zhou 32 28 0 12 Sep 2018
Variance Reduction in Monte Carlo Counterfactual Regret Minimization (VR-MCCFR) for Extensive Form Games using Baselines Martin Schmid Neil Burch Marc Lanctot Matej Moravcík Rudolf Kadlec Michael Bowling 29 64 0 09 Sep 2018
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning Ilya Kostrikov Kumar Krishna Agrawal Debidatta Dwibedi Sergey Levine Jonathan Tompson 35 256 0 09 Sep 2018
Unity: A General Platform for Intelligent Agents Arthur Juliani Vincent-Pierre Berges Esh Vckay Andrew Cohen Jonathan Harper ... Chris Goy Yuan Gao Hunter Henry Marwan Mattar Danny Lange 16 808 0 07 Sep 2018
Importance mixing: Improving sample reuse in evolutionary policy search methods Aloïs Pourchot Nicolas Perrin Olivier Sigaud 7 14 0 17 Aug 2018
Policy Optimization as Wasserstein Gradient Flows Ruiyi Zhang Changyou Chen Chunyuan Li Lawrence Carin 14 66 0 09 Aug 2018
Learning Actionable Representations from Visual Observations Debidatta Dwibedi Jonathan Tompson Corey Lynch P. Sermanet SSL 22 80 0 02 Aug 2018
Learning Dexterous In-Hand Manipulation OpenAI OpenAI Marcin Andrychowicz Bowen Baker Maciek Chociej Rafal Jozefowicz ... Szymon Sidor Joshua Tobin Peter Welinder Lilian Weng Wojciech Zaremba 15 1,853 0 01 Aug 2018
ToriLLE: Learning Environment for Hand-to-Hand Combat Anssi Kanervisto Ville Hautamaki 18 2 0 26 Jul 2018
Multi-Agent Reinforcement Learning: A Report on Challenges and Approaches Sanyam Kapoor 19 31 0 25 Jul 2018
Online Robust Policy Learning in the Presence of Unknown Adversaries Aaron J. Havens Zhanhong Jiang S. Sarkar AAML 16 43 0 16 Jul 2018
Hierarchical Reinforcement Learning Framework towards Multi-agent Navigation Wenhao Ding Shuaijun Li Huihuan Qian 21 32 0 14 Jul 2018
Automatically Composing Representation Transformations as a Means for Generalization Michael Chang Abhishek Gupta Sergey Levine Thomas L. Griffiths 26 68 0 12 Jul 2018
Variance Reduction for Reinforcement Learning in Input-Driven Environments Hongzi Mao S. Venkatakrishnan Malte Schwarzkopf Mohammad Alizadeh OffRL 41 94 0 06 Jul 2018
Using Reinforcement Learning with Partial Vehicle Detection for Intelligent Traffic Signal Control Rusheng Zhang A. Ishikawa Wenli Wang Benjamin Striner Ozan Tonguz 24 100 0 04 Jul 2018
Human-level performance in first-person multiplayer games with population-based deep reinforcement learning Max Jaderberg Wojciech M. Czarnecki Iain Dunning Luke Marris Guy Lever ... Joel Z Leibo David Silver Demis Hassabis Koray Kavukcuoglu T. Graepel OffRL 34 715 0 03 Jul 2018
A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning Amy Zhang Nicolas Ballas Joelle Pineau CLL OffRL 30 177 0 20 Jun 2018
RUDDER: Return Decomposition for Delayed Rewards Jose A. Arjona-Medina Michael Gillhofer Michael Widrich Thomas Unterthiner Johannes Brandstetter Sepp Hochreiter 30 212 0 20 Jun 2018
Learning Policy Representations in Multiagent Systems Aditya Grover Maruan Al-Shedivat Jayesh K. Gupta Yuri Burda Harrison Edwards AI4CE 29 123 0 17 Jun 2018
BaRC: Backward Reachability Curriculum for Robotic Reinforcement Learning Boris Ivanovic James Harrison Apoorva Sharma Mo Chen Marco Pavone OffRL 24 57 0 16 Jun 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 48 470 0 14 Jun 2018
Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings John D. Co-Reyes YuXuan Liu Abhishek Gupta Benjamin Eysenbach Pieter Abbeel Sergey Levine SSL BDL AIFin 29 142 0 07 Jun 2018
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation Jiaxuan You Bowen Liu Rex Ying Vijay S. Pande J. Leskovec GNN 206 885 0 07 Jun 2018
Neural Control Variates for Variance Reduction Ruosi Wan Mingjun Zhong Haoyi Xiong Zhanxing Zhu BDL DRL 16 18 0 01 Jun 2018
Supervised Policy Update for Deep Reinforcement Learning Q. Vuong Yiming Zhang Keith Ross 19 20 0 29 May 2018
Learning Self-Imitating Diverse Policies Tanmay Gangwani Qiang Liu Jian Peng 14 65 0 25 May 2018
Object-Oriented Dynamics Predictor Guangxiang Zhu Zhiao Huang Chongjie Zhang AI4CE 24 36 0 25 May 2018
Constrained Policy Improvement for Safe and Efficient Reinforcement Learning Elad Sarafian Aviv Tamar Sarit Kraus OffRL 32 11 0 20 May 2018
Deep Dynamical Modeling and Control of Unsteady Fluid Flows Jeremy Morton F. Witherden A. Jameson Mykel J. Kochenderfer AI4CE 11 160 0 18 May 2018
Policy Optimization with Second-Order Advantage Information Jiajin Li Baoxiang Wang 22 6 0 09 May 2018
Reward Estimation for Variance Reduction in Deep Reinforcement Learning Joshua Romoff Peter Henderson Alexandre Piché Vincent François-Lavet Joelle Pineau 6 42 0 09 May 2018
Vehicle Communication Strategies for Simulated Highway Driving Cinjon Resnick I. Kulikov Kyunghyun Cho Jason Weston 22 7 0 19 Apr 2018
An Adaptive Clipping Approach for Proximal Policy Optimization Gang Chen Yiming Peng Mengjie Zhang 14 22 0 17 Apr 2018
Gotta Learn Fast: A New Benchmark for Generalization in RL Alex Nichol Vicki Pfau Christopher Hesse Oleg Klimov John Schulman VLM OffRL 15 177 0 10 Apr 2018
StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning Kun Shao Yuanheng Zhu Dongbin Zhao 107 170 0 03 Apr 2018
Learning to Run challenge solutions: Adapting reinforcement learning methods for neuromusculoskeletal environments L. Kidzinski Sharada Mohanty Carmichael F. Ong Zhewei Huang Shuchang Zhou ... Sean F. Carroll Jennifer Hicks Sergey Levine M. Salathé Scott L. Delp 26 87 0 02 Apr 2018
Learning to Run challenge: Synthesizing physiologically accurate motion using deep reinforcement learning L. Kidzinski Sharada Mohanty Carmichael F. Ong Jennifer Hicks Sean F. Carroll Sergey Levine M. Salathé Scott L. Delp 21 60 0 31 Mar 2018
Automated Curriculum Learning by Rewarding Temporally Rare Events Niels Justesen S. Risi OffRL 29 20 0 19 Mar 2018
Feedback Control For Cassie With Deep Reinforcement Learning Zhaoming Xie Glen Berseth Patrick Clary J. Hurst M. van de Panne 27 174 0 15 Mar 2018