Conservative Q-Learning for Offline Reinforcement Learning

8 June 2020

Papers citing "Conservative Q-Learning for Offline Reinforcement Learning"

50 / 426 papers shown

Title
Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning Carolin Schmidt Daniele Gammelli Francisco Câmara Pereira Filipe Rodrigues OffRL 14 4 0 28 Feb 2023
The In-Sample Softmax for Offline Reinforcement Learning Chenjun Xiao Han Wang Yangchen Pan Adam White Martha White OffRL 29 26 0 28 Feb 2023
The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning Haotian Hu Yiqin Yang Qianchuan Zhao Chongjie Zhang OffRL 11 5 0 27 Feb 2023
Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation Zhifa Ke Junyu Zhang Zaiwen Wen 24 0 0 25 Feb 2023
VIPeR: Provably Efficient Algorithm for Offline RL with Neural Function Approximation Thanh Nguyen-Tang R. Arora OffRL 46 5 0 24 Feb 2023
Neural Laplace Control for Continuous-time Delayed Systems Samuel Holt Alihan Huyuk Zhaozhi Qian Hao Sun M. Schaar OffRL 29 10 0 24 Feb 2023
Behavior Proximal Policy Optimization Zifeng Zhuang Kun Lei Jinxin Liu Donglin Wang Yilang Guo OffRL 30 34 0 22 Feb 2023
A Reinforcement Learning Framework for Online Speaker Diarization Baihan Lin Xinxin Zhang OffRL 39 2 0 21 Feb 2023
Swapped goal-conditioned offline reinforcement learning Wenyan Yang Huiling Wang Dingding Cai Joni Pajarinen Joni-Kristen Kämäräinen OffRL OnRL 36 1 0 17 Feb 2023
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning Siliang Zeng Chenliang Li Alfredo García Min-Fong Hong OffRL 34 13 0 15 Feb 2023
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning Sheng Yue Guan-Bo Wang Wei Shao Zhaofeng Zhang Sen Lin Junkai Ren Junshan Zhang OffRL 31 20 0 09 Feb 2023
PASTA: Pessimistic Assortment Optimization Juncheng Dong Weibin Mo Zhengling Qi Cong Shi Ethan X. Fang Vahid Tarokh OffRL 23 2 0 08 Feb 2023
DITTO: Offline Imitation Learning with World Models Branton DeMoss Paul Duckworth Nick Hawes Ingmar Posner Ingmar Posner OffRL 21 18 0 06 Feb 2023
Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment Qitong Gao Stephen L. Schimdt Afsana Chowdhury Guangyu Feng Jennifer J. Peters Katherine Genty W. Grill Dennis A. Turner Miroslav Pajic OffRL 33 11 0 05 Feb 2023
AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners Zhixuan Liang Yao Mu Mingyu Ding Fei Ni Masayoshi Tomizuka Ping Luo 80 101 0 03 Feb 2023
Policy Expansion for Bridging Offline-to-Online Reinforcement Learning Haichao Zhang Weiwen Xu Haonan Yu CLL OffRL OnRL 40 62 0 02 Feb 2023
Anti-Exploration by Random Network Distillation Alexander Nikulin Vladislav Kurenkov Denis Tarasov Sergey Kolesnikov 38 24 0 31 Jan 2023
Skill Decision Transformer Shyam Sudhakaran S. Risi OffRL 29 5 0 31 Jan 2023
Learning Vision-based Robotic Manipulation Tasks Sequentially in Offline Reinforcement Learning Settings Sudhir Pratap Yadav R. Nagar S. Shah OffRL 29 3 0 31 Jan 2023
Hierarchical Imitation Learning with Vector Quantized Models Kalle Kujanpää Joni Pajarinen Alexander Ilin 22 12 0 30 Jan 2023
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning Hanlin Zhu Paria Rashidinejad Jiantao Jiao OffRL 40 15 0 30 Jan 2023
Constrained Policy Optimization with Explicit Behavior Density for Offline Reinforcement Learning Jing Zhang Chi Zhang Wenjia Wang Bing-Yi Jing OffRL 35 7 0 28 Jan 2023
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$ -wise Comparisons Banghua Zhu Jiantao Jiao Michael I. Jordan OffRL 42 183 0 26 Jan 2023
Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout Takuya Hiraoka Takashi Onishi Yoshimasa Tsuruoka OffRL 29 0 0 26 Jan 2023
A Survey on Transformers in Reinforcement Learning Wenzhe Li Hao Luo Zichuan Lin Chongjie Zhang Zongqing Lu Deheng Ye OffRL MU AI4CE 37 56 0 08 Jan 2023
Benchmarks and Algorithms for Offline Preference-Based Reward Learning Daniel Shin Anca Dragan Daniel S. Brown OffRL 17 53 0 03 Jan 2023
Offline Policy Optimization in RL with Variance Regularizaton Riashat Islam Samarth Sinha Homanga Bharadhwaj Samin Yeasar Arnob Zhuoran Yang Animesh Garg Zhaoran Wang Lihong Li Doina Precup OffRL 26 0 0 29 Dec 2022
Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios Yiren Lu Justin Fu George Tucker Xinlei Pan Eli Bronstein ... Brandyn White Aleksandra Faust Shimon Whiteson Drago Anguelov Sergey Levine OffRL 31 92 0 21 Dec 2022
Offline Reinforcement Learning for Visual Navigation Dhruv Shah Arjun Bhorkar Hrish Leen Ilya Kostrikov Nicholas Rhinehart Sergey Levine OffRL 24 29 0 16 Dec 2022
Learning Robotic Navigation from Experience: Principles, Methods, and Recent Results Sergey Levine Dhruv Shah SSL 49 21 0 13 Dec 2022
VideoDex: Learning Dexterity from Internet Videos Kenneth Shaw Shikhar Bahl Deepak Pathak 30 89 0 08 Dec 2022
Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble Chong Li OffRL 32 0 0 07 Dec 2022
Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce Order Fraud Evaluation Soysal Degirmenci Chris Jones OffRL 27 1 0 05 Dec 2022
Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning Guoxi Zhang H. Kashima OffRL 29 2 0 29 Nov 2022
Is Conditional Generative Modeling all you need for Decision-Making? Anurag Ajay Yilun Du Abhi Gupta J. Tenenbaum Tommi Jaakkola Pulkit Agrawal DiffM 66 365 0 28 Nov 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 26 5 0 28 Nov 2022
Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes Aviral Kumar Rishabh Agarwal Xinyang Geng George Tucker Sergey Levine OffRL 44 48 0 28 Nov 2022
Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings Tongzhou Wang Phillip Isola 29 8 0 28 Nov 2022
Multi-Environment Pretraining Enables Transfer to Action Limited Datasets David Venuto Sherry Yang Pieter Abbeel Doina Precup Igor Mordatch Ofir Nachum OffRL 25 5 0 23 Nov 2022
Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning Alex Beeson Giovanni Montana OffRL OnRL 26 23 0 21 Nov 2022
Model-based Trajectory Stitching for Improved Offline Reinforcement Learning Charles A. Hepburn Giovanni Montana OffRL 32 13 0 21 Nov 2022
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows D. Akimov Vladislav Kurenkov Alexander Nikulin Denis Tarasov Sergey Kolesnikov OffRL 24 9 0 20 Nov 2022
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size Alexander Nikulin Vladislav Kurenkov Denis Tarasov Dmitry Akimov Sergey Kolesnikov OffRL 36 14 0 20 Nov 2022
Reward Gaming in Conditional Text Generation Richard Yuanzhe Pang Vishakh Padmakumar Thibault Sellam Ankur P. Parikh He He 35 24 0 16 Nov 2022
Offline Reinforcement Learning with Adaptive Behavior Regularization Yunfan Zhou Xijun Li Qingyu Qu OffRL 27 1 0 15 Nov 2022
Contextual Transformer for Offline Meta Reinforcement Learning Runji Lin Ye Li Xidong Feng Zhaowei Zhang Xian Hong Wu Fung Haifeng Zhang Jun Wang Yali Du Yaodong Yang OffRL 26 6 0 15 Nov 2022
Control Transformer: Robot Navigation in Unknown Environments through PRM-Guided Return-Conditioned Sequence Modeling Daniel Lawson A. H. Qureshi 24 8 0 11 Nov 2022
Controlling Commercial Cooling Systems Using Reinforcement Learning Jerry Luo Cosmin Paduraru Octavian Voicu Yuri Chervonyi Scott A. Munns ... Sims Witherspoon D. Parish Peter Dolan Chenyu Zhao D. Mankowitz OffRL AI4CE 28 25 0 11 Nov 2022
Active Example Selection for In-Context Learning Yiming Zhang Shi Feng Chenhao Tan SILM LRM 32 187 0 08 Nov 2022
Spatio-temporal Incentives Optimization for Ride-hailing Services with Offline Deep Reinforcement Learning Yanqiu Wu Qingyang Li Zhiwei Qin OffRL 14 3 0 06 Nov 2022