Proximal Policy Optimization Algorithms

20 July 2017

Papers citing "Proximal Policy Optimization Algorithms"

50 / 6,731 papers shown

Title
Deep Reinforcement Learning from Policy-Dependent Human Feedback Dilip Arumugam Jun Ki Lee S. Saskin Michael L. Littman 28 94 0 12 Feb 2019
VERIFAI: A Toolkit for the Design and Analysis of Artificial Intelligence-Based Systems T. Dreossi Daniel J. Fremont Shromona Ghosh Edward J. Kim H. Ravanbakhsh Marcell Vazquez-Chanlatte S. Seshia 18 29 0 12 Feb 2019
Artificial Intelligence for Prosthetics - challenge solutions L. Kidzinski Carmichael F. Ong Sharada Mohanty Jennifer Hicks Sean F. Carroll ... E. Tumer J. Watson M. Salathé Sergey Levine Scott L. Delp 15 40 0 07 Feb 2019
A Meta-MDP Approach to Exploration for Lifelong Reinforcement Learning Francisco M. Garcia Philip S. Thomas 10 38 0 03 Feb 2019
Improving Evolutionary Strategies with Generative Neural Networks Louis Faury Clément Calauzènes Olivier Fercoq Syrine Krichene 19 12 0 31 Jan 2019
Go-Explore: a New Approach for Hard-Exploration Problems Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune AI4TS 24 361 0 30 Jan 2019
Discretizing Continuous Action Space for On-Policy Optimization Yunhao Tang Shipra Agrawal OffRL 26 118 0 29 Jan 2019
Lyapunov-based Safe Policy Optimization for Continuous Control Yinlam Chow Ofir Nachum Aleksandra Faust Edgar A. Duénez-Guzmán Mohammad Ghavamzadeh 11 244 0 28 Jan 2019
Designing a Multi-Objective Reward Function for Creating Teams of Robotic Bodyguards Using Deep Reinforcement Learning Hassam Sheikh Ladislau Bölöni 13 3 0 28 Jan 2019
The Assistive Multi-Armed Bandit Lawrence Chan Dylan Hadfield-Menell S. Srinivasa Anca Dragan 14 36 0 24 Jan 2019
Distillation Strategies for Proximal Policy Optimization Sam Green C. Vineyard Ç. Koç 16 8 0 23 Jan 2019
Trust Region Value Optimization using Kalman Filtering Shirli Di-Castro Shashua Shie Mannor 19 7 0 23 Jan 2019
Neuroflight: Next Generation Flight Control Firmware W. Koch R. Mancuso Azer Bestavros 25 29 0 19 Jan 2019
On-Policy Trust Region Policy Optimisation with Replay Buffers D. Kangin N. Pugeault OffRL 9 3 0 18 Jan 2019
AutoPhase: Compiler Phase-Ordering for High Level Synthesis with Deep Reinforcement Learning Ameer Haj-Ali Qijing Huang William S. Moses J. Xiang Ion Stoica Krste Asanović J. Wawrzynek 21 36 0 15 Jan 2019
Multi-Objective Reinforced Evolution in Mobile Neural Architecture Search Xiangxiang Chu Bo Zhang Ruijun Xu Hailong Ma 31 98 0 04 Jan 2019
Learning to Walk via Deep Reinforcement Learning Tuomas Haarnoja Sehoon Ha Aurick Zhou Jie Tan George Tucker Sergey Levine 54 433 0 26 Dec 2018
VMAV-C: A Deep Attention-based Reinforcement Learning Algorithm for Model-based Control Xingxing Liang Qi Wang Yanghe Feng Zhong Liu Jincai Huang 21 5 0 24 Dec 2018
TD-Regularized Actor-Critic Methods Simone Parisi Voot Tangkaratt Jan Peters Mohammad Emtiyaz Khan OffRL 24 31 0 19 Dec 2018
Learning Montezuma's Revenge from a Single Demonstration Tim Salimans Richard J. Chen 31 136 0 08 Dec 2018
Communication-Efficient Policy Gradient Methods for Distributed Reinforcement Learning Tianyi Chen Kaipeng Zhang G. Giannakis Tamer Basar OffRL 29 41 0 07 Dec 2018
Zero-shot Deep Reinforcement Learning Driving Policy Transfer for Autonomous Vehicles based on Robust Control Zhuo Xu Chen Tang Masayoshi Tomizuka OffRL 27 35 0 07 Dec 2018
Quantifying Generalization in Reinforcement Learning K. Cobbe Oleg Klimov Christopher Hesse Taehoon Kim John Schulman OffRL 27 659 0 06 Dec 2018
Relative Entropy Regularized Policy Iteration A. Abdolmaleki Jost Tobias Springenberg Jonas Degrave Steven Bohez Yuval Tassa Dan Belov N. Heess Martin Riedmiller 27 72 0 05 Dec 2018
Adapting Auxiliary Losses Using Gradient Similarity Yunshu Du Wojciech M. Czarnecki Siddhant M. Jayakumar Mehrdad Farajtabar Razvan Pascanu Balaji Lakshminarayanan 35 155 0 05 Dec 2018
Hardware Conditioned Policies for Multi-Robot Transfer Learning Tao Chen Adithyavairavan Murali Abhinav Gupta 13 101 0 24 Nov 2018
Guiding Policies with Language via Meta-Learning John D. Co-Reyes Abhishek Gupta Suvansh Sanjeev Nick Altieri Jacob Andreas John DeNero Pieter Abbeel Sergey Levine LM&Ro 26 63 0 19 Nov 2018
Scalable agent alignment via reward modeling: a research direction Jan Leike David M. Krueger Tom Everitt Miljan Martic Vishal Maini Shane Legg 34 396 0 19 Nov 2018
Towards Governing Agent's Efficacy: Action-Conditional $β$ -VAE for Deep Transparent Reinforcement Learning John Yang Gyujeong Lee Minsung Hyun Simyung Chang Nojun Kwak 20 3 0 11 Nov 2018
Meta-Learning for Multi-objective Reinforcement Learning Xi Chen Ali Ghadirzadeh Mårten Björkman Pablo G. Cámara OffRL 19 54 0 08 Nov 2018
Correlation Filter Selection for Visual Tracking Using Reinforcement Learning Yanchun Xie Jimin Xiao Hassan Jameel Asghar Jeyarajan Thiyagalingam Dali Kaafar 18 21 0 08 Nov 2018
RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation Mehdi Letafati Yuke Zhu Animesh Garg Jonathan Booher Max Spero ... John Emmons Anchit Gupta Emre Orbay Silvio Savarese Li Fei-Fei OffRL 48 282 0 07 Nov 2018
A Closer Look at Deep Policy Gradients Andrew Ilyas Logan Engstrom Shibani Santurkar Dimitris Tsipras Firdaus Janoos Larry Rudolph Aleksander Madry 30 50 0 06 Nov 2018
VIREL: A Variational Inference Framework for Reinforcement Learning M. Fellows Anuj Mahajan Tim G. J. Rudner Shimon Whiteson DRL 32 53 0 03 Nov 2018
Assessing Generalization in Deep Reinforcement Learning Charles Packer Katelyn Gao Jernej Kos Philipp Krahenbuhl V. Koltun D. Song OffRL 18 233 0 29 Oct 2018
One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks Tianhe Yu Pieter Abbeel Sergey Levine Chelsea Finn 13 68 0 25 Oct 2018
RLgraph: Modular Computation Graphs for Deep Reinforcement Learning Michael Schaarschmidt Sven Mika Kai Fricke Eiko Yoneki OffRL 23 5 0 21 Oct 2018
Actor-Critic Policy Optimization in Partially Observable Multiagent Environments S. Srinivasan Marc Lanctot V. Zambaldi Julien Perolat K. Tuyls Rémi Munos Michael Bowling 8 148 0 21 Oct 2018
BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning Maxime Chevalier-Boisvert Dzmitry Bahdanau Salem Lahlou Lucas Willems Chitwan Saharia Thien Huu Nguyen Yoshua Bengio ELM 33 232 0 18 Oct 2018
Policy Gradient in Partially Observable Environments: Approximation and Convergence Kamyar Azizzadenesheli Manish Kumar Bera Anima Anandkumar OffRL 30 8 0 18 Oct 2018
Learning Socially Appropriate Robot Approaching Behavior Toward Groups using Deep Reinforcement Learning Yuan Gao Fangkai Yang Martin Frisk Daniel Hernández Christopher E. Peters Ginevra Castellano 27 5 0 16 Oct 2018
ProMP: Proximal Meta-Policy Search Jonas Rothfuss Dennis Lee I. Clavera Tamim Asfour Pieter Abbeel 35 209 0 16 Oct 2018
GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning Jacky Liang Viktor Makoviychuk Ankur Handa N. Chentanez Miles Macklin Dieter Fox AI4CE 24 182 0 12 Oct 2018
Policy Transfer with Strategy Optimization Wenhao Yu Chenxi Liu Greg Turk 38 80 0 12 Oct 2018
Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience Yevgen Chebotar Ankur Handa Viktor Makoviychuk Miles Macklin J. Issac Nathan D. Ratliff Dieter Fox 8 498 0 12 Oct 2018
A Survey and Critique of Multiagent Deep Reinforcement Learning Pablo Hernandez-Leal Bilal Kartal Matthew E. Taylor OffRL 32 550 0 12 Oct 2018
Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space Jiechao Xiong Qing Wang Zhuoran Yang Peng Sun Lei Han Yang Zheng Haobo Fu Tong Zhang Ji Liu Han Liu 29 168 0 10 Oct 2018
Reinforcement Learning for Improving Agent Design David R Ha 32 124 0 09 Oct 2018
Actor-Attention-Critic for Multi-Agent Reinforcement Learning Shariq Iqbal Fei Sha 6 738 0 05 Oct 2018
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation Perttu Hämäläinen Amin Babadi Xiaoxiao Ma J. Lehtinen 32 62 0 05 Oct 2018