Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction

3 June 2019

Papers citing "Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction"

50 / 271 papers shown

Title
Conservative Data Sharing for Multi-Task Offline Reinforcement Learning Tianhe Yu Aviral Kumar Yevgen Chebotar Karol Hausman Sergey Levine Chelsea Finn OffRL 35 77 0 16 Sep 2021
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning Andrea Zanette Martin J. Wainwright Emma Brunskill OffRL 34 115 0 19 Aug 2021
Offline Decentralized Multi-Agent Reinforcement Learning Jiechuan Jiang Zongqing Lu OffRL 30 37 0 04 Aug 2021
Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings Shengpu Tang Jenna Wiens OffRL 26 78 0 23 Jul 2021
Bayesian Controller Fusion: Leveraging Control Priors in Deep Reinforcement Learning for Robotics Krishan Rana Vibhavari Dasagi Jesse Haviland Ben Talbot Michael Milford Niko Sünderhauf BDL OffRL 27 31 0 21 Jul 2021
Constraints Penalized Q-learning for Safe Offline Reinforcement Learning Haoran Xu Xianyuan Zhan Xiangyu Zhu OffRL 16 86 0 19 Jul 2021
Conservative Offline Distributional Reinforcement Learning Yecheng Jason Ma Dinesh Jayaraman Osbert Bastani OffRL 73 79 0 12 Jul 2021
Offline reinforcement learning with uncertainty for treatment strategies in sepsis Ran Liu J. Greenstein J. Fackler Jules Bergmann M. Bembea R. Winslow OffRL 14 7 0 09 Jul 2021
Offline Meta-Reinforcement Learning with Online Self-Supervision Vitchyr H. Pong Ashvin Nair Laura M. Smith Catherine Huang Sergey Levine OffRL 39 66 0 08 Jul 2021
Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research J. Luis E. Crawley B. Cameron OffRL 27 6 0 07 Jul 2021
Supervised Off-Policy Ranking Yue Jin Yue Zhang Tao Qin Xudong Zhang Jian Yuan Houqiang Li Tie-Yan Liu OffRL 32 5 0 03 Jul 2021
Goal-Conditioned Reinforcement Learning with Imagined Subgoals Elliot Chane-Sane Cordelia Schmid Ivan Laptev 30 141 0 01 Jul 2021
Variance-Aware Off-Policy Evaluation with Linear Function Approximation Yifei Min Tianhao Wang Dongruo Zhou Quanquan Gu OffRL 39 38 0 22 Jun 2021
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation Jongmin Lee Wonseok Jeon Byung-Jun Lee J. Pineau Kee-Eung Kim OffRL 37 91 0 21 Jun 2021
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL Catherine Cang Aravind Rajeswaran Pieter Abbeel Michael Laskin OffRL 32 29 0 16 Jun 2021
Offline RL Without Off-Policy Evaluation David Brandfonbrener William F. Whitney Rajesh Ranganath Joan Bruna OffRL 42 162 0 16 Jun 2021
Bellman-consistent Pessimism for Offline Reinforcement Learning Tengyang Xie Ching-An Cheng Nan Jiang Paul Mineiro Alekh Agarwal OffRL LRM 27 271 0 13 Jun 2021
A Minimalist Approach to Offline Reinforcement Learning Scott Fujimoto S. Gu OffRL 58 788 0 12 Jun 2021
Offline Reinforcement Learning as Anti-Exploration Shideh Rezaeifar Robert Dadashi Nino Vieillard Léonard Hussenot Olivier Bachem Olivier Pietquin M. Geist OffRL 54 51 0 11 Jun 2021
Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning Tengyang Xie Nan Jiang Huan Wang Caiming Xiong Yu Bai OffRL OnRL 44 162 0 09 Jun 2021
Offline Reinforcement Learning as One Big Sequence Modeling Problem Michael Janner Qiyang Li Sergey Levine OffRL 71 651 0 03 Jun 2021
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning Yue Wu Shuangfei Zhai Nitish Srivastava J. Susskind Jian Zhang Ruslan Salakhutdinov Hanlin Goh EDL OffRL OnRL 21 184 0 17 May 2021
Robotic Surgery With Lean Reinforcement Learning Yotam Barnoy Molly O'Brien Wenjie Wang Gregory D. Hager OffRL 46 20 0 03 May 2021
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization Michael Ruogu Zhang T. Paine Ofir Nachum Cosmin Paduraru George Tucker Ziyun Wang Mohammad Norouzi OffRL 24 45 0 28 Apr 2021
Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills Yevgen Chebotar Karol Hausman Yao Lu Ted Xiao Dmitry Kalashnikov ... A. Irpan Benjamin Eysenbach Ryan Julian Chelsea Finn Sergey Levine SSL OffRL 37 146 0 15 Apr 2021
Regularized Behavior Value Estimation Çağlar Gülçehre Sergio Gomez Colmenarejo Ziyun Wang Jakub Sygnowski T. Paine Konrad Zolna Yutian Chen Matthew W. Hoffman Razvan Pascanu Nando de Freitas OffRL 31 37 0 17 Mar 2021
Offline Reinforcement Learning with Fisher Divergence Critic Regularization Ilya Kostrikov Jonathan Tompson Rob Fergus Ofir Nachum OffRL 29 300 0 14 Mar 2021
S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement Learning Samarth Sinha Ajay Mandlekar Animesh Garg OffRL 26 107 0 10 Mar 2021
Instabilities of Offline RL with Pre-Trained Neural Representation Ruosong Wang Yifan Wu Ruslan Salakhutdinov Sham Kakade OffRL 22 42 0 08 Mar 2021
Offline Reinforcement Learning with Pseudometric Learning Robert Dadashi Shideh Rezaeifar Nino Vieillard Léonard Hussenot Olivier Pietquin M. Geist OffRL 39 40 0 02 Mar 2021
DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning Xianyuan Zhan Haoran Xu Yueying Zhang Xiangyu Zhu Honglei Yin Yu Zheng OffRL AI4CE 45 68 0 23 Feb 2021
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 222 419 0 16 Feb 2021
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators Anish Agarwal Abdullah Alomar Varkey Alumootil Devavrat Shah Dennis Shen Zhi Xu Cindy Yang OffRL 18 18 0 13 Feb 2021
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned Julian Ibarz Jie Tan Chelsea Finn Mrinal Kalakrishnan P. Pastor Sergey Levine OffRL 16 520 0 04 Feb 2021
NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning Rongjun Qin Songyi Gao Xingyuan Zhang Zhen Xu Shengkai Huang Zewen Li Weinan Zhang Yang Yu OffRL 140 80 0 01 Feb 2021
Is Pessimism Provably Efficient for Offline RL? Ying Jin Zhuoran Yang Zhaoran Wang OffRL 27 350 0 30 Dec 2020
POPO: Pessimistic Offline Policy Optimization Qiang He Xinwen Hou OffRL 37 10 0 26 Dec 2020
Social NCE: Contrastive Learning of Socially-aware Motion Representations Yuejiang Liu Qi Yan Alexandre Alahi 34 101 0 21 Dec 2020
PLAS: Latent Action Space for Offline Reinforcement Learning Wenxuan Zhou Sujay Bajracharya David Held OffRL 38 158 0 14 Nov 2020
Cooperative Heterogeneous Deep Reinforcement Learning Han Zheng Pengfei Wei Jing Jiang Guodong Long Qinghua Lu Chengqi Zhang 51 12 0 02 Nov 2020
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning Avi Singh Albert Yu Jonathan Yang Jesse Zhang Aviral Kumar Sergey Levine SSL OffRL OnRL 35 103 0 27 Oct 2020
Generative Temporal Difference Learning for Infinite-Horizon Prediction Michael Janner Igor Mordatch Sergey Levine AI4CE 23 34 0 27 Oct 2020
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 37 39 0 27 Oct 2020
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning Anurag Ajay Aviral Kumar Pulkit Agrawal Sergey Levine Ofir Nachum OffRL OnRL 39 155 0 26 Oct 2020
CoinDICE: Off-Policy Confidence Interval Estimation Bo Dai Ofir Nachum Yinlam Chow Lihong Li Csaba Szepesvári Dale Schuurmans OffRL 27 84 0 22 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 40 93 0 12 Oct 2020
Online Safety Assurance for Deep Reinforcement Learning Noga H. Rotman Michael Schapira Aviv Tamar OffRL 38 5 0 07 Oct 2020
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization Lanqing Li Rui Yang Dijun Luo OffRL 33 10 0 02 Oct 2020
The Importance of Pessimism in Fixed-Dataset Policy Optimization Jacob Buckman Carles Gelada Marc G. Bellemare OffRL 42 136 0 15 Sep 2020
Learning Off-Policy with Online Planning Harshit S. Sikchi Wenxuan Zhou David Held OffRL 37 46 0 23 Aug 2020