v1v2v3v4v5 (latest)

Trust Region Policy Optimization

19 February 2015

Pieter Abbeel

Papers citing "Trust Region Policy Optimization"

50 / 2,013 papers shown

Title
Control with adaptive Q-learning J. Araújo Mário A. T. Figueiredo M. Botto 92 2 0 03 Nov 2020
A Study of Policy Gradient on a Class of Exactly Solvable Models Gavin McCracken Colin Daniels Rosie Zhao Anna M. Brandenberger Prakash Panangaden Doina Precup 47 0 0 03 Nov 2020
Specialization in Hierarchical Learning Systems Heinke Hihn Daniel A. Braun 85 16 0 03 Nov 2020
Cooperative Heterogeneous Deep Reinforcement Learning Han Zheng Pengfei Wei Jing Jiang Guodong Long Qinghua Lu Chengqi Zhang 96 12 0 02 Nov 2020
Finding the Near Optimal Policy via Adaptive Reduced Regularization in MDPs Wenhao Yang Xiang Li Guangzeng Xie Zhihua Zhang 91 5 0 31 Oct 2020
Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy Approach Kartik Paigwar L. Krishna Sashank Tirumala Naman Khetan Aditya Sagi Ashish Joglekar S. Bhatnagar A. Ghosal B. Amrutur Shishir Kolathaya 95 17 0 30 Oct 2020
Bayes-Adaptive Deep Model-Based Policy Optimisation Tai Hoang Ngo Anh Vien BDL 69 1 0 29 Oct 2020
Learning to Unknot Sergei Gukov James Halverson Fabian Ruehle P. Sułkowski 90 59 0 28 Oct 2020
Fighting Copycat Agents in Behavioral Cloning from Observation Histories Chuan Wen Jierui Lin Trevor Darrell Dinesh Jayaraman Yang Gao 78 60 0 28 Oct 2020
Generalized Nonlinear and Finsler Geometry for Robotics Nathan D. Ratliff Karl Van Wyk Mandy Xie Anqi Li M. A. Rana AI4CE 81 28 0 28 Oct 2020
Conservative Safety Critics for Exploration Homanga Bharadhwaj Aviral Kumar Nicholas Rhinehart Sergey Levine Florian Shkurti Animesh Garg OffRL 109 139 0 27 Oct 2020
Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient Samuele Tosatto João Carvalho Jan Peters OffRL 62 7 0 27 Oct 2020
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 116 40 0 27 Oct 2020
Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time Systems with Lipschitz Continuous Controls Jeongho Kim Jaeuk Shin Insoon Yang 61 35 0 27 Oct 2020
Contextual Latent-Movements Off-Policy Optimization for Robotic Manipulation Skills Samuele Tosatto Georgia Chalvatzaki Jan Peters 75 12 0 26 Oct 2020
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning Younggyo Seo Kimin Lee I. Clavera Thanard Kurutach Jinwoo Shin Pieter Abbeel 86 39 0 26 Oct 2020
How to Make Deep RL Work in Practice Nirnai Rao Elie Aljalbout Axel Sauer Sami Haddadin OffRL 141 11 0 25 Oct 2020
Modeling and Optimization Trade-off in Meta-learning Katelyn Gao Ozan Sener 67 27 0 24 Oct 2020
Planning with Exploration: Addressing Dynamics Bottleneck in Model-based Reinforcement Learning Xiyao Wang Junge Zhang Wenzhen Huang Qiyue Yin 51 0 0 24 Oct 2020
Error Bounds of Imitating Policies and Environments Tian Xu Ziniu Li Yang Yu 113 121 0 22 Oct 2020
Sample Efficient Reinforcement Learning with REINFORCE Junzi Zhang Jongho Kim Brendan O'Donoghue Stephen P. Boyd 131 113 0 22 Oct 2020
Learning Quadrupedal Locomotion over Challenging Terrain Joonho Lee Jemin Hwangbo Lorenz Wellhausen V. Koltun Marco Hutter 166 1,186 0 21 Oct 2020
Logistic Q-Learning Joan Bas-Serrano Sebastian Curi Andreas Krause Gergely Neu 108 40 0 21 Oct 2020
Improving Generalization in Reinforcement Learning with Mixture Regularization Kaixin Wang Bingyi Kang Jie Shao Jiashi Feng 188 120 0 21 Oct 2020
Iterative Amortized Policy Optimization Joseph Marino Alexandre Piché Alessandro Davide Ialongo Yisong Yue OffRL 117 21 0 20 Oct 2020
Proximal Policy Gradient: PPO with Policy Gradient Ju-Seung Byun Byungmoon Kim Huamin Wang OffRL 46 8 0 20 Oct 2020
What About Inputing Policy in Value Function: Policy Representation and Policy-extended Value Function Approximator Hongyao Tang Zhaopeng Meng Jianye Hao Chong Chen D. Graves ... Hangyu Mao Wulong Liu Yaodong Yang Wenyuan Tao Li Wang OffRL 86 7 0 19 Oct 2020
Softmax Deep Double Deterministic Policy Gradients Ling Pan Qingpeng Cai Longbo Huang 118 93 0 19 Oct 2020
D2RL: Deep Dense Architectures in Reinforcement Learning Samarth Sinha Homanga Bharadhwaj A. Srinivas Animesh Garg OffRL AI4CE 124 56 0 19 Oct 2020
Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning Chenjia Bai Peng Liu Kaiyu Liu Zhaoran Wang Yingnan Zhao Lingxiao Wang SSL 79 18 0 17 Oct 2020
Learning Dexterous Manipulation from Suboptimal Experts Rae Jeong Jost Tobias Springenberg Jackie Kay Daniel Zheng Yuxiang Zhou Alexandre Galashov N. Heess F. Nori OffRL 64 37 0 16 Oct 2020
On the Guaranteed Almost Equivalence between Imitation Learning from Observation and Demonstration Zhihao Cheng Liu Liu Aishan Liu Hao Sun Meng Fang Dacheng Tao 40 10 0 16 Oct 2020
Decentralized Multi-Agent Pursuit using Deep Reinforcement Learning C. de Souza Rhys Newbury Akansel Cosgun P. Castillo B. Vidolov Dana Kulić 108 92 0 16 Oct 2020
Multi-Agent Trust Region Policy Optimization Hepeng Li Haibo He 106 42 0 15 Oct 2020
Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control Zhiyuan Xu Kun Wu Zhengping Che Jian Tang Jieping Ye CLL OffRL 109 49 0 15 Oct 2020
Deep Reinforcement Learning and Transportation Research: A Comprehensive Review Nahid Parvez Farazi T. Ahamed Limon Barua Bo Zou AI4TS 69 18 0 13 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 86 96 0 12 Oct 2020
Local Search for Policy Iteration in Continuous Control Jost Tobias Springenberg N. Heess D. Mankowitz J. Merel Arunkumar Byravan ... Julian Schrittwieser Yuval Tassa J. Buchli Dan Belov Martin Riedmiller OffRL 82 15 0 12 Oct 2020
Safe Reinforcement Learning with Natural Language Constraints Tsung-Yen Yang Michael Y. Hu Yinlam Chow Peter J. Ramadge Karthik Narasimhan 71 32 0 11 Oct 2020
Learning Value Functions in Deep Policy Gradients using Residual Variance Yannis Flet-Berliac Reda Ouhamma Odalric-Ambrym Maillard Philippe Preux OffRL 72 1 0 09 Oct 2020
Provable Fictitious Play for General Mean-Field Games Qiaomin Xie Zhuoran Yang Zhaoran Wang Andreea Minca 84 18 0 08 Oct 2020
Online Safety Assurance for Deep Reinforcement Learning Noga H. Rotman Michael Schapira Aviv Tamar OffRL 96 5 0 07 Oct 2020
Proximal Policy Optimization with Relative Pearson Divergence Taisuke Kobayashi 47 17 0 07 Oct 2020
Projection-Based Constrained Policy Optimization Tsung-Yen Yang Justinian P. Rosca Karthik Narasimhan Peter J. Ramadge 60 245 0 07 Oct 2020
Neural Mask Generator: Learning to Generate Adaptive Word Maskings for Language Model Adaptation Minki Kang Moonsu Han Sung Ju Hwang OOD 81 18 0 06 Oct 2020
Offline Learning for Planning: A Summary Giorgio Angelotti Nicolas Drougard Caroline Ponzoni Carvalho Chanel OffRL 51 4 0 05 Oct 2020
FORK: A Forward-Looking Actor For Model-Free Reinforcement Learning Honghao Wei Lei Ying 52 7 0 04 Oct 2020
$f$ -GAIL: Learning $f$ -Divergence for Generative Adversarial Imitation Learning Xin Zhang Jun Luo Ziming Zhang Zhi-Li Zhang 58 34 0 02 Oct 2020
A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms Shangtong Zhang Romain Laroche H. V. Seijen Shimon Whiteson Rémi Tachet des Combes 122 15 0 02 Oct 2020
Bridging the gap between Markowitz planning and deep reinforcement learning Eric Benhamou David Saltiel Sandrine Ungari Abhishek Mukhopadhyay OffRL 62 19 0 30 Sep 2020