v1v2v3 (latest)

Addressing Function Approximation Error in Actor-Critic Methods

26 February 2018

Papers citing "Addressing Function Approximation Error in Actor-Critic Methods"

50 / 2,180 papers shown

Title
Soft policy optimization using dual-track advantage estimator Yubo Huang Xuechun Wang Luobao Zou Zhiwei Zhuang Weidong Zhang 16 3 0 15 Sep 2020
Variance-Reduced Off-Policy Memory-Efficient Policy Search Daoming Lyu Qi Qi Mohammad Ghavamzadeh Hengshuai Yao Tianbao Yang Bo Liu OffRL 71 7 0 14 Sep 2020
Importance Weighted Policy Learning and Adaptation Alexandre Galashov Jakub Sygnowski Guillaume Desjardins Jan Humplik Leonard Hasenclever Rae Jeong Yee Whye Teh N. Heess OffRL 79 1 0 10 Sep 2020
Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners Yun-Shiuan Chuang Xuezhou Zhang Yuzhe Ma Mark K. Ho Joseph L. Austerweil Xiaojin Zhu OffRL 85 7 0 05 Sep 2020
Visualizing the Loss Landscape of Actor Critic Methods with Applications in Inventory Optimization Recep Yusuf Bekci M. Gümüş 29 4 0 04 Sep 2020
ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning Sheng-Chun Kao Geonhwa Jeong T. Krishna 111 96 0 04 Sep 2020
Sample-Efficient Automated Deep Reinforcement Learning Jörg Franke Gregor Koehler André Biedenkapp Frank Hutter 110 42 0 03 Sep 2020
Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning Systems Vinicius G. Goecks 110 11 0 30 Aug 2020
How does the structure embedded in learning policy affect learning quadruped locomotion? Kuangen Zhang Jongwoo Lee Zhimin Hou Clarence W. de Silva Chenglong Fu N. Hogan 40 1 0 29 Aug 2020
Real-world Video Adaptation with Reinforcement Learning Hongzi Mao Shannon Chen Drew Dimmery Shaun Singh Drew Blaisdell Yuandong Tian Mohammad Alizadeh E. Bakshy OffRL 124 77 0 28 Aug 2020
On the model-based stochastic value gradient for continuous reinforcement learning Brandon Amos Samuel Stanton Denis Yarats A. Wilson 79 71 0 28 Aug 2020
t-Soft Update of Target Network for Deep Reinforcement Learning Taisuke Kobayashi Wendyam Eric Lionel Ilboudo 131 52 0 25 Aug 2020
Learning Off-Policy with Online Planning Harshit S. Sikchi Wenxuan Zhou David Held OffRL 131 50 0 23 Aug 2020
Forward and inverse reinforcement learning sharing network weights and hyperparameters E. Uchibe Kenji Doya 59 18 0 17 Aug 2020
Model-Reference Reinforcement Learning for Collision-Free Tracking Control of Autonomous Surface Vehicles Qingrui Zhang Wei Pan V. Reppa 57 69 0 17 Aug 2020
Crossing The Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics Eugene Valassakis Zihan Ding Edward Johns 37 45 0 15 Aug 2020
Interactive Visualization for Debugging RL Shuby Deshpande Benjamin Eysenbach J. Schneider 77 7 0 14 Aug 2020
Offline Meta-Reinforcement Learning with Advantage Weighting E. Mitchell Rafael Rafailov Xue Bin Peng Sergey Levine Chelsea Finn OffRL 111 108 0 13 Aug 2020
TriFinger: An Open-Source Robot for Learning Dexterity Manuel Wüthrich Felix Widmaier F. Grimminger J. Akpo S. Joshi ... Julian Viereck M. Naveau Ludovic Righetti Bernhard Schölkopf Stefan Bauer 82 72 0 08 Aug 2020
Deep Reinforcement Learning for Tactile Robotics: Learning to Type on a Braille Keyboard Alex Church John Lloyd R. Hadsell Nathan Lepora 80 31 0 06 Aug 2020
Deep Reinforcement Learning based Local Planner for UAV Obstacle Avoidance using Demonstration Data Lei He Nabil Aouf J. Whidborne Bifeng Song 58 27 0 06 Aug 2020
Learning Power Control from a Fixed Batch of Data M. Khoshkholgh H. Yanikomeroglu OffRL 34 2 0 05 Aug 2020
Deep Inverse Q-learning with Constraints Gabriel Kalweit M. Huegle M. Werling Joschka Boedecker BDL 52 33 0 04 Aug 2020
Proximal Deterministic Policy Gradient Marco Maggipinto Gian Antonio Susto Pratik Chaudhari OffRL 31 5 0 03 Aug 2020
Learning Agile Locomotion via Adversarial Training Yujin Tang Jie Tan Tatsuya Harada 70 15 0 03 Aug 2020
Understanding the Stability of Deep Control Policies for Biped Locomotion Hwangpil Park R. Yu Yoonsang Lee Kyungho Lee Jehee Lee 52 9 0 30 Jul 2020
Modular Transfer Learning with Transition Mismatch Compensation for Excessive Disturbance Rejection Tianming Wang Wenjie Lu H. Yu Dikai Liu 87 1 0 29 Jul 2020
Maximum Mutation Reinforcement Learning for Scalable Control Karush Suri Xiaolong Shi Konstantinos N. Plataniotis Y. Lawryshyn 42 4 0 24 Jul 2020
Predictive Information Accelerates Learning in RL Kuang-Huei Lee Ian S. Fischer Anthony Z. Liu Yijie Guo Honglak Lee John F. Canny S. Guadarrama 123 73 0 24 Jul 2020
Off-Policy Multi-Agent Decomposed Policy Gradients Yihan Wang Beining Han Tonghan Wang Heng Dong Chongjie Zhang 100 181 0 24 Jul 2020
EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL Seyed Kamyar Seyed Ghasemipour Dale Schuurmans S. Gu OffRL 292 122 0 21 Jul 2020
UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning Sarthak Bhagat Sujit PB 76 50 0 21 Jul 2020
Collision Avoidance Robotics Via Meta-Learning (CARML) A. Iyer Aravind Mahadevan 26 3 0 16 Jul 2020
Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep Reinforcement Learning Sabrina Hoppe Marc Toussaint OffRL 44 7 0 15 Jul 2020
Learning to Sample with Local and Global Contexts in Experience Replay Buffer Youngmin Oh Kimin Lee Jinwoo Shin Eunho Yang Sung Ju Hwang OffRL 66 16 0 14 Jul 2020
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning Shauharda Khadka Estelle Aflalo Mattias Marder Avrech Ben-David Santiago Miret Shie Mannor Tamir Hazan Hanlin Tang Somdeb Majumdar GNN 62 11 0 14 Jul 2020
Momentum-Based Policy Gradient Methods Feihu Huang Shangqian Gao J. Pei Heng-Chiao Huang 96 39 0 13 Jul 2020
Implicit Distributional Reinforcement Learning Yuguang Yue Zhendong Wang Mingyuan Zhou OffRL 86 16 0 13 Jul 2020
An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay Scott Fujimoto David Meger Doina Precup 94 58 0 12 Jul 2020
Learning Retrospective Knowledge with Reverse Reinforcement Learning Shangtong Zhang Vivek Veeriah Shimon Whiteson OffRL AI4TS 76 13 0 09 Jul 2020
One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control Wenlong Huang Igor Mordatch Deepak Pathak 145 179 0 09 Jul 2020
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning Kimin Lee Michael Laskin A. Srinivas Pieter Abbeel OffRL 104 204 0 09 Jul 2020
Counterfactual Data Augmentation using Locally Factored Dynamics Silviu Pitis Elliot Creager Animesh Garg BDL OffRL 111 89 0 06 Jul 2020
Integrating Distributed Architectures in Highly Modular RL Libraries Albert Bou Sebastian Dittert Gianni De Fabritiis 54 0 0 06 Jul 2020
Discount Factor as a Regularizer in Reinforcement Learning Ron Amit Ron Meir K. Ciosek OffRL 92 72 0 04 Jul 2020
Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via Metagradient Yufei Wang Tianwei Ni 70 21 0 03 Jul 2020
Fighting Failures with FIRE: Failure Identification to Reduce Expert Burden in Intervention-Based Learning Trevor Ablett Filip Marić Jonathan Kelly OffRL 102 6 0 01 Jul 2020
Regularly Updated Deterministic Policy Gradient Algorithm Shuai Han Wenbo Zhou Shuai Lu Jiayu Yu 23 22 0 01 Jul 2020
Uniform Priors for Data-Efficient Transfer Samarth Sinha Karsten Roth Anirudh Goyal Marzyeh Ghassemi Hugo Larochelle Animesh Garg OOD 121 0 0 30 Jun 2020
Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs Jianzhun Du Joseph D. Futoma Finale Doshi-Velez 84 52 0 29 Jun 2020