Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction

3 June 2019

Papers citing "Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction"

21 / 271 papers shown

Title
Offline Meta-Reinforcement Learning with Advantage Weighting E. Mitchell Rafael Rafailov Xue Bin Peng Sergey Levine Chelsea Finn OffRL 38 104 0 13 Aug 2020
QPLEX: Duplex Dueling Multi-Agent Q-Learning Jianhao Wang Zhizhou Ren Terry Liu Yang Yu Chongjie Zhang OffRL 51 437 0 03 Aug 2020
Batch Policy Learning in Average Reward Markov Decision Processes Peng Liao Zhengling Qi Runzhe Wan P. Klasnja Susan Murphy OffRL 34 81 0 23 Jul 2020
Hyperparameter Selection for Offline Reinforcement Learning T. Paine Cosmin Paduraru Andrea Michi Çağlar Gülçehre Konrad Zolna Alexander Novikov Ziyun Wang Nando de Freitas GP OffRL 49 146 0 17 Jul 2020
Provably Good Batch Reinforcement Learning Without Great Exploration Yao Liu Adith Swaminathan Alekh Agarwal Emma Brunskill OffRL 27 105 0 16 Jul 2020
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning Kimin Lee Michael Laskin A. Srinivas Pieter Abbeel OffRL 25 199 0 09 Jul 2020
Critic Regularized Regression Ziyun Wang Alexander Novikov Konrad Zolna Jost Tobias Springenberg Scott E. Reed ... Noah Y. Siegel J. Merel Çağlar Gülçehre N. Heess Nando de Freitas OffRL 36 319 0 26 Jun 2020
Off-policy Bandits with Deficient Support Noveen Sachdeva Yi-Hsun Su Thorsten Joachims OffRL 38 75 0 16 Jun 2020
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair Abhishek Gupta Murtaza Dalal Sergey Levine OffRL OnRL 46 592 0 16 Jun 2020
D4RL: Datasets for Deep Data-Driven Reinforcement Learning Justin Fu Aviral Kumar Ofir Nachum George Tucker Sergey Levine GP OffRL 135 1,318 0 15 Apr 2020
An empirical investigation of the challenges of real-world reinforcement learning Gabriel Dulac-Arnold Nir Levine D. Mankowitz Jerry Li Cosmin Paduraru Sven Gowal Todd Hester OffRL 36 121 0 24 Mar 2020
Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding Hongseok Namkoong Ramtin Keramati Steve Yadlowsky Emma Brunskill OffRL 24 63 0 12 Mar 2020
Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning Noah Y. Siegel Jost Tobias Springenberg Felix Berkenkamp A. Abdolmaleki Michael Neunert Thomas Lampe Roland Hafner Nicolas Heess Martin Riedmiller OffRL 22 282 0 19 Feb 2020
BRPO: Batch Residual Policy Optimization Kentaro Kanamori Yinlam Chow Takuya Takagi Hiroki Arimura Honglak Lee Ken Kobayashi Craig Boutilier OffRL 141 46 0 08 Feb 2020
Learning to Reach Goals via Iterated Supervised Learning Dibya Ghosh Abhishek Gupta Ashwin Reddy Justin Fu Coline Devin Benjamin Eysenbach Sergey Levine 32 34 0 12 Dec 2019
IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control from Offline Robot Manipulation Data Ajay Mandlekar Fabio Ramos Byron Boots Silvio Savarese Li Fei-Fei Animesh Garg Dieter Fox OffRL 34 117 0 13 Nov 2019
BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning Xinyue Chen Zijian Zhou Ziyi Wang Che Wang Yanqiu Wu Keith Ross OffRL 33 121 0 27 Oct 2019
Benchmarking Batch Deep Reinforcement Learning Algorithms Shih-Han Chou Wen-Yen Chang W. Hsu Jianlong Fu OffRL 27 182 0 03 Oct 2019
Quantile QT-Opt for Risk-Aware Vision-Based Robotic Grasping Cristian Bodnar A. Li Karol Hausman P. Pastor Mrinal Kalakrishnan OffRL 28 50 0 01 Oct 2019
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning Xue Bin Peng Aviral Kumar Grace Zhang Sergey Levine OffRL 22 541 0 01 Oct 2019
Scaling data-driven robotics with reward sketching and batch reinforcement learning Serkan Cabi Sergio Gomez Colmenarejo Alexander Novikov Ksenia Konyushkova Scott E. Reed ... David Barker Jonathan Scholz Misha Denil Nando de Freitas Ziyun Wang OffRL 28 29 0 26 Sep 2019