Proximal Policy Optimization Algorithms

20 July 2017

Papers citing "Proximal Policy Optimization Algorithms"

50 / 7,000 papers shown

Title
Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience Yevgen Chebotar Ankur Handa Viktor Makoviychuk Miles Macklin J. Issac Nathan D. Ratliff Dieter Fox 10 500 0 12 Oct 2018
A Survey and Critique of Multiagent Deep Reinforcement Learning Pablo Hernandez-Leal Bilal Kartal Matthew E. Taylor OffRL 48 553 0 12 Oct 2018
Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space Jiechao Xiong Qing Wang Zhuoran Yang Peng Sun Lei Han Yang Zheng Haobo Fu Tong Zhang Ji Liu Han Liu 37 169 0 10 Oct 2018
Reinforcement Learning for Improving Agent Design David R Ha 32 124 0 09 Oct 2018
Actor-Attention-Critic for Multi-Agent Reinforcement Learning Shariq Iqbal Fei Sha 6 738 0 05 Oct 2018
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation Perttu Hämäläinen Amin Babadi Xiaoxiao Ma J. Lehtinen 32 62 0 05 Oct 2018
AutoLoss: Learning Discrete Schedules for Alternate Optimization Haowen Xu Huatian Zhang Zhiting Hu Xiaodan Liang Ruslan Salakhutdinov Eric Xing 32 30 0 04 Oct 2018
Episodic Curiosity through Reachability Nikolay Savinov Anton Raichuk Raphaël Marinier Damien Vincent Marc Pollefeys Timothy Lillicrap Sylvain Gelly 17 267 0 04 Oct 2018
Learning Particle Dynamics for Manipulating Rigid Bodies, Deformable Objects, and Fluids Yunzhu Li Jiajun Wu Russ Tedrake J. Tenenbaum Antonio Torralba PINN AI4CE 32 389 0 03 Oct 2018
CEM-RL: Combining evolutionary and gradient-based methods for policy search Aloïs Pourchot Olivier Sigaud 32 160 0 02 Oct 2018
The Dreaming Variational Autoencoder for Reinforcement Learning Environments Per-Arne Andersen M. G. Olsen Ole-Christoffer Granmo DRL 22 17 0 02 Oct 2018
ChainQueen: A Real-Time Differentiable Physical Simulator for Soft Robotics Yuanming Hu Jiancheng Liu Andrew Spielberg J. Tenenbaum William T. Freeman Jiajun Wu Daniela Rus Wojciech Matusik AI4CE 28 262 0 02 Oct 2018
Directed-Info GAIL: Learning Hierarchical Policies from Unsegmented Demonstrations using Directed Information Arjun Sharma Mohit Sharma Nicholas Rhinehart Kris Kitani 27 68 0 29 Sep 2018
Boosting Trust Region Policy Optimization by Normalizing Flows Policy Yunhao Tang Shipra Agrawal TPM 39 29 0 27 Sep 2018
Fast Motion Planning for High-DOF Robot Systems Using Hierarchical System Identification Biao Jia Zherong Pan Tianyi Zhou 16 5 0 21 Sep 2018
Adversarial Imitation via Variational Inverse Reinforcement Learning A. H. Qureshi Byron Boots Michael C. Yip 22 61 0 17 Sep 2018
Model-Based Reinforcement Learning via Meta-Policy Optimization I. Clavera Jonas Rothfuss John Schulman Yasuhiro Fujita Tamim Asfour Pieter Abbeel 30 225 0 14 Sep 2018
Reinforcement Learning in Topology-based Representation for Human Body Movement with Whole Arm Manipulation Weihao Yuan Kaiyu Hang Haoran Song Danica Kragic M. Y. Wang J. A. Stork 14 26 0 12 Sep 2018
Safe Navigation with Human Instructions in Complex Scenes Zhe Hu Jia Pan Tingxiang Fan Ruigang Yang Tianyi Zhou 32 28 0 12 Sep 2018
Variance Reduction in Monte Carlo Counterfactual Regret Minimization (VR-MCCFR) for Extensive Form Games using Baselines Martin Schmid Neil Burch Marc Lanctot Matej Moravcík Rudolf Kadlec Michael Bowling 29 64 0 09 Sep 2018
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning Ilya Kostrikov Kumar Krishna Agrawal Debidatta Dwibedi Sergey Levine Jonathan Tompson 35 256 0 09 Sep 2018
Unity: A General Platform for Intelligent Agents Arthur Juliani Vincent-Pierre Berges Esh Vckay Andrew Cohen Jonathan Harper ... Chris Goy Yuan Gao Hunter Henry Marwan Mattar Danny Lange 39 808 0 07 Sep 2018
Importance mixing: Improving sample reuse in evolutionary policy search methods Aloïs Pourchot Nicolas Perrin Olivier Sigaud 15 14 0 17 Aug 2018
Policy Optimization as Wasserstein Gradient Flows Ruiyi Zhang Changyou Chen Chunyuan Li Lawrence Carin 14 66 0 09 Aug 2018
Learning Actionable Representations from Visual Observations Debidatta Dwibedi Jonathan Tompson Corey Lynch P. Sermanet SSL 22 80 0 02 Aug 2018
Learning Dexterous In-Hand Manipulation OpenAI OpenAI Marcin Andrychowicz Bowen Baker Maciek Chociej Rafal Jozefowicz ... Szymon Sidor Joshua Tobin Peter Welinder Lilian Weng Wojciech Zaremba 47 1,857 0 01 Aug 2018
ToriLLE: Learning Environment for Hand-to-Hand Combat Anssi Kanervisto Ville Hautamaki 26 2 0 26 Jul 2018
Multi-Agent Reinforcement Learning: A Report on Challenges and Approaches Sanyam Kapoor 27 31 0 25 Jul 2018
Meta-Learning Priors for Efficient Online Bayesian Regression James Harrison Apoorva Sharma Marco Pavone BDL 22 99 0 24 Jul 2018
Online Robust Policy Learning in the Presence of Unknown Adversaries Aaron J. Havens Zhanhong Jiang S. Sarkar AAML 16 43 0 16 Jul 2018
Hierarchical Reinforcement Learning Framework towards Multi-agent Navigation Wenhao Ding Shuaijun Li Huihuan Qian 24 32 0 14 Jul 2018
Deep Learning in the Wild Thilo Stadelmann Mohammadreza Amirian Ismail Arabaci M. Arnold G. Duivesteijn ... Melanie Geiger Stefan Lörwald B. Meier Katharina Rombach Lukas Tuggener 24 42 0 13 Jul 2018
Automatically Composing Representation Transformations as a Means for Generalization Michael Chang Abhishek Gupta Sergey Levine Thomas Griffiths 26 68 0 12 Jul 2018
Variance Reduction for Reinforcement Learning in Input-Driven Environments Hongzi Mao S. Venkatakrishnan Malte Schwarzkopf Mohammad Alizadeh OffRL 41 95 0 06 Jul 2018
Using Reinforcement Learning with Partial Vehicle Detection for Intelligent Traffic Signal Control Rusheng Zhang A. Ishikawa Wenli Wang Benjamin Striner Ozan Tonguz 32 101 0 04 Jul 2018
Human-level performance in first-person multiplayer games with population-based deep reinforcement learning Max Jaderberg Wojciech M. Czarnecki Iain Dunning Luke Marris Guy Lever ... Joel Z Leibo David Silver Demis Hassabis Koray Kavukcuoglu T. Graepel OffRL 43 715 0 03 Jul 2018
A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning Amy Zhang Nicolas Ballas Joelle Pineau CLL OffRL 33 177 0 20 Jun 2018
RUDDER: Return Decomposition for Delayed Rewards Jose A. Arjona-Medina Michael Gillhofer Michael Widrich Thomas Unterthiner Johannes Brandstetter Sepp Hochreiter 30 213 0 20 Jun 2018
Learning Policy Representations in Multiagent Systems Aditya Grover Maruan Al-Shedivat Jayesh K. Gupta Yuri Burda Harrison Edwards AI4CE 29 122 0 17 Jun 2018
BaRC: Backward Reachability Curriculum for Robotic Reinforcement Learning Boris Ivanovic James Harrison Apoorva Sharma Mo Chen Marco Pavone OffRL 32 57 0 16 Jun 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 48 471 0 14 Jun 2018
Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings John D. Co-Reyes YuXuan Liu Abhishek Gupta Benjamin Eysenbach Pieter Abbeel Sergey Levine SSL BDL AIFin 37 142 0 07 Jun 2018
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation Jiaxuan You Bowen Liu Rex Ying Vijay S. Pande J. Leskovec GNN 215 887 0 07 Jun 2018
Neural Control Variates for Variance Reduction Ruosi Wan Mingjun Zhong Haoyi Xiong Zhanxing Zhu BDL DRL 22 18 0 01 Jun 2018
Supervised Policy Update for Deep Reinforcement Learning Q. Vuong Yiming Zhang Keith Ross 19 20 0 29 May 2018
Learning Self-Imitating Diverse Policies Tanmay Gangwani Qiang Liu Jian Peng 29 65 0 25 May 2018
Parallel Architecture and Hyperparameter Search via Successive Halving and Classification Manoj Kumar George E. Dahl Vijay Vasudevan Mohammad Norouzi 28 25 0 25 May 2018
Object-Oriented Dynamics Predictor Guangxiang Zhu Zhiao Huang Chongjie Zhang AI4CE 24 36 0 25 May 2018
AutoAugment: Learning Augmentation Policies from Data E. D. Cubuk Barret Zoph Dandelion Mané Vijay Vasudevan Quoc V. Le 63 1,758 0 24 May 2018
Verifiable Reinforcement Learning via Policy Extraction Osbert Bastani Yewen Pu Armando Solar-Lezama OffRL 14 329 0 22 May 2018