Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

4 May 2020

Papers citing "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems"

50 / 120 papers shown

Title
Perceive With Confidence: Statistical Safety Assurances for Navigation with Learning-Based Perception Anushri Dixit Zhiting Mei Meghan Booker Mariko Storey-Matsutani Mariko Storey-Matsutani Allen Z. Ren Ola Shorinwa Anirudha Majumdar 180 7 0 13 Mar 2024
Debiased Offline Representation Learning for Fast Online Adaptation in Non-stationary Dynamics Xinyu Zhang Wenjie Qiu Yi-Chen Li Lei Yuan Chengxing Jia Zongzhang Zhang Yang Yu OffRL 79 1 0 17 Feb 2024
Return-Aligned Decision Transformer Tsunehiko Tanaka Kenshi Abe Kaito Ariu Tetsuro Morimura Edgar Simo-Serra OffRL 101 1 0 06 Feb 2024
Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning Lanqing Li Hai Zhang Xinyu Zhang Shatong Zhu Junqiao Zhao Junqiao Zhao Pheng-Ann Heng OffRL 74 8 0 04 Feb 2024
Crowd-PrefRL: Preference-Based Reward Learning from Crowds David Chhan Ellen R. Novoseller Vernon J. Lawhern 100 5 0 17 Jan 2024
An Invitation to Deep Reinforcement Learning Bernhard Jaeger Andreas Geiger OffRL OOD 111 5 0 13 Dec 2023
Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings Henrik von Kleist Alireza Zamanian I. Shpitser Narges Ahmidi OffRL 168 2 0 03 Dec 2023
A Tractable Inference Perspective of Offline RL Xuejie Liu Hoang Trung-Dung Guy Van den Broeck Yitao Liang OffRL 84 1 0 31 Oct 2023
H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps Haoyi Niu Tianying Ji Bingqi Liu Haocheng Zhao Xiangyu Zhu Jianying Zheng Pengfei Huang Guyue Zhou Jianming Hu Xianyuan Zhan OffRL OnRL AI4CE 76 8 0 22 Sep 2023
Settling the Sample Complexity of Online Reinforcement Learning Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 157 23 0 25 Jul 2023
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning Jinyi Liu Yi Ma Jianye Hao Yujing Hu Yan Zheng Tangjie Lv Changjie Fan OffRL 101 2 0 27 Jun 2023
Selective Uncertainty Propagation in Offline RL Sanath Kumar Krishnamurthy Shrey Modi Tanmay Gangwani S. Katariya Branislav Kveton A. Rangi OffRL 169 0 0 01 Feb 2023
The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning Henrique Donancio L. Vercouter H. Roclawski AI4CE 67 1 0 20 Oct 2022
Representation Matters: Offline Pretraining for Sequential Decision Making Mengjiao Yang Ofir Nachum SSL OffRL 78 119 0 11 Feb 2021
DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs Aayam Shrestha Stefan Lee Prasad Tadepalli Alan Fern OffRL 92 23 0 18 Oct 2020
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair Abhishek Gupta Murtaza Dalal Sergey Levine OffRL OnRL 88 607 0 16 Jun 2020
Conservative Q-Learning for Offline Reinforcement Learning Aviral Kumar Aurick Zhou George Tucker Sergey Levine OffRL OnRL 131 1,806 0 08 Jun 2020
MOReL : Model-Based Offline Reinforcement Learning Rahul Kidambi Aravind Rajeswaran Praneeth Netrapalli Thorsten Joachims OffRL 85 668 0 12 May 2020
D4RL: Datasets for Deep Data-Driven Reinforcement Learning Justin Fu Aviral Kumar Ofir Nachum George Tucker Sergey Levine GP OffRL 210 1,359 0 15 Apr 2020
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction Aviral Kumar Abhishek Gupta Sergey Levine OffRL 44 101 0 16 Mar 2020
Learning to Generalize Across Long-Horizon Tasks from Human Demonstrations Ajay Mandlekar Danfei Xu Roberto Martín-Martín Silvio Savarese Li Fei-Fei OffRL 78 138 0 13 Mar 2020
GradientDICE: Rethinking Generalized Offline Estimation of Stationary Values Shangtong Zhang Bo Liu Shimon Whiteson OffRL 46 103 0 29 Jan 2020
AlgaeDICE: Policy Gradient from Arbitrary Experience Ofir Nachum Bo Dai Ilya Kostrikov Yinlam Chow Lihong Li Dale Schuurmans OffRL 143 241 0 04 Dec 2019
Behavior Regularized Offline Reinforcement Learning Yifan Wu George Tucker Ofir Nachum OffRL 85 684 0 26 Nov 2019
Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation Ziyang Tang Yihao Feng Lihong Li Dengyong Zhou Qiang Liu OffRL 127 69 0 16 Oct 2019
Trajectory-wise Control Variates for Variance Reduction in Policy Gradient Methods Ching-An Cheng Xinyan Yan Byron Boots 46 22 0 08 Aug 2019
Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog Natasha Jaques Asma Ghandeharioun J. Shen Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 99 340 0 30 Jun 2019
When to Trust Your Model: Model-Based Policy Optimization Michael Janner Justin Fu Marvin Zhang Sergey Levine OffRL 83 948 0 19 Jun 2019
A Survey of Autonomous Driving: Common Practices and Emerging Technologies Ekim Yurtsever Jacob Lambert Alexander Carballo K. Takeda 83 1,370 0 12 Jun 2019
DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections Ofir Nachum Yinlam Chow Bo Dai Lihong Li OffRL 131 334 0 10 Jun 2019
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning Nathan Kallus Masatoshi Uehara OffRL 70 54 0 09 Jun 2019
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Aviral Kumar Justin Fu George Tucker Sergey Levine OffRL OnRL 109 1,054 0 03 Jun 2019
Model-Based Reinforcement Learning for Atari Lukasz Kaiser Mohammad Babaeizadeh Piotr Milos B. Osinski R. Campbell ... Sergey Levine Afroz Mohiuddin Ryan Sepassi George Tucker Henryk Michalewski OffRL 112 859 0 01 Mar 2019
Diagnosing Bottlenecks in Deep Q-learning Algorithms Justin Fu Aviral Kumar Matthew Soh Sergey Levine OffRL 70 142 0 26 Feb 2019
PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos Paavo Parmas C. Rasmussen Jan Peters Kenji Doya 53 88 0 04 Feb 2019
Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift Carles Gelada Marc G. Bellemare OffRL 57 97 0 27 Jan 2019
Deep Reinforcement Learning and the Deadly Triad H. V. Hasselt Yotam Doron Florian Strub Matteo Hessel Nicolas Sonnerat Joseph Modayil OffRL 76 230 0 06 Dec 2018
Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control F. Ebert Chelsea Finn Sudeep Dasari Annie Xie Alex X. Lee Sergey Levine SSL 106 385 0 03 Dec 2018
Learning Latent Dynamics for Planning from Pixels Danijar Hafner Timothy Lillicrap Ian S. Fischer Ruben Villegas David R Ha Honglak Lee James Davidson BDL 84 1,430 0 12 Nov 2018
Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation Qiang Liu Lihong Li Ziyang Tang Dengyong Zhou OffRL 142 355 0 29 Oct 2018
Composable Action-Conditioned Predictors: Flexible Off-Policy Learning for Robot Navigation G. Kahn Adam R. Villaflor Pieter Abbeel Sergey Levine SSL OffRL 62 19 0 16 Oct 2018
Supervised Reinforcement Learning with Recurrent Neural Network for Dynamic Treatment Recommendation Lu Wang Wei Zhang Xiaofeng He H. Zha 49 263 0 04 Jul 2018
Learning to Drive in a Day Alex Kendall Jeffrey Hawke David Janz Przemyslaw Mazur Daniele Reda John M. Allen Vinh-Dieu Lam Alex Bewley Amar Shah 95 656 0 01 Jul 2018
Evaluating Reinforcement Learning Algorithms in Observational Health Settings Omer Gottesman Fredrik D. Johansson Joshua Meier Jack Dent Donghun Lee ... Matthieu Komorowski A. Faisal Leo Anthony Celi David Sontag Finale Doshi-Velez OOD OffRL 32 134 0 31 May 2018
Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review Sergey Levine AI4CE BDL 73 671 0 02 May 2018
Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning Andy Zeng Shuran Song Stefan Welker Johnny Lee Alberto Rodriguez Thomas Funkhouser SSL 73 568 0 27 Mar 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 189 1,594 0 05 Feb 2018
Offline A/B testing for Recommender Systems Alexandre Gilotte Clément Calauzènes Thomas Nedelec A. Abraham Simon Dollé OffRL 67 221 0 22 Jan 2018
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation Bo Dai Albert Eaton Shaw Lihong Li Lin Xiao Niao He Zhen Liu Jianshu Chen Le Song 46 25 0 29 Dec 2017
Safe Policy Improvement with Baseline Bootstrapping Romain Laroche P. Trichelair Rémi Tachet des Combes OffRL 61 200 0 19 Dec 2017