Instabilities of Offline RL with Pre-Trained Neural Representation

Instabilities of Offline RL with Pre-Trained Neural Representation

8 March 2021

Ruslan Salakhutdinov

Papers citing "Instabilities of Offline RL with Pre-Trained Neural Representation"

13 / 13 papers shown

Title
Stackelberg Batch Policy Learning Wenzhuo Zhou Annie Qu OffRL 29 0 0 28 Sep 2023
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning Tongzhou Wang Antonio Torralba Phillip Isola Amy Zhang OffRL 29 31 0 03 Apr 2023
Why Target Networks Stabilise Temporal Difference Methods Matt Fellows Matthew Smith Shimon Whiteson OOD AAML 13 7 0 24 Feb 2023
Offline Reinforcement Learning Under Value and Density-Ratio Realizability: The Power of Gaps Jinglin Chen Nan Jiang OffRL 21 33 0 25 Mar 2022
A Complete Characterization of Linear Estimators for Offline Policy Evaluation Juan C. Perdomo A. Krishnamurthy Peter L. Bartlett Sham Kakade OffRL 27 3 0 08 Mar 2022
DR3: Value-Based Deep Reinforcement Learning Requires Explicit Regularization Aviral Kumar Rishabh Agarwal Tengyu Ma Aaron Courville George Tucker Sergey Levine OffRL 31 65 0 09 Dec 2021
Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation Dylan J. Foster A. Krishnamurthy D. Simchi-Levi Yunzong Xu OffRL 11 62 0 21 Nov 2021
Variance-Aware Off-Policy Evaluation with Linear Function Approximation Yifei Min Tianhao Wang Dongruo Zhou Quanquan Gu OffRL 34 38 0 22 Jun 2021
Offline RL Without Off-Policy Evaluation David Brandfonbrener William F. Whitney Rajesh Ranganath Joan Bruna OffRL 42 161 0 16 Jun 2021
Bellman-consistent Pessimism for Offline Reinforcement Learning Tengyang Xie Ching-An Cheng Nan Jiang Paul Mineiro Alekh Agarwal OffRL LRM 22 269 0 13 Jun 2021
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 219 413 0 16 Feb 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,955 0 04 May 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 38 181 0 22 Aug 2019