Off-Policy Deep Reinforcement Learning without Exploration

7 December 2018

Papers citing "Off-Policy Deep Reinforcement Learning without Exploration"

50 / 415 papers shown

Title
Guarded Policy Optimization with Imperfect Online Demonstrations Zhenghai Xue Zhenghao Peng Quanyi Li Zhihan Liu Bolei Zhou OffRL 53 10 0 03 Mar 2023
Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning Carolin Schmidt Daniele Gammelli Francisco Câmara Pereira Filipe Rodrigues OffRL 24 4 0 28 Feb 2023
The In-Sample Softmax for Offline Reinforcement Learning Chenjun Xiao Han Wang Yangchen Pan Adam White Martha White OffRL 35 26 0 28 Feb 2023
The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning Haotian Hu Yiqin Yang Qianchuan Zhao Chongjie Zhang OffRL 31 5 0 27 Feb 2023
Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation Zhifa Ke Junyu Zhang Zaiwen Wen 34 0 0 25 Feb 2023
Neural Laplace Control for Continuous-time Delayed Systems Samuel Holt Alihan Huyuk Zhaozhi Qian Hao Sun M. Schaar OffRL 51 10 0 24 Feb 2023
Behavior Proximal Policy Optimization Zifeng Zhuang Kun Lei Jinxin Liu Donglin Wang Yilang Guo OffRL 61 35 0 22 Feb 2023
Demonstration-Guided Reinforcement Learning with Efficient Exploration for Task Automation of Surgical Robot Tao Huang Kai-xiang Chen Bin Li Yunhui Liu Qingxu Dou 40 23 0 20 Feb 2023
Swapped goal-conditioned offline reinforcement learning Wenyan Yang Huiling Wang Dingding Cai Joni Pajarinen Joni-Kristen Kämäräinen OffRL OnRL 59 1 0 17 Feb 2023
Efficient Online Reinforcement Learning with Offline Data Philip J. Ball Laura M. Smith Ilya Kostrikov Sergey Levine OffRL OnRL 53 170 0 06 Feb 2023
Learning Complementary Policies for Human-AI Teams Ruijiang Gao M. Saar-Tsechansky Maria De-Arteaga Ligong Han Wei-Ju Sun Min Kyung Lee Matthew Lease 49 8 0 06 Feb 2023
Policy Expansion for Bridging Offline-to-Online Reinforcement Learning Haichao Zhang Weiwen Xu Haonan Yu CLL OffRL OnRL 47 63 0 02 Feb 2023
Anti-Exploration by Random Network Distillation Alexander Nikulin Vladislav Kurenkov Denis Tarasov Sergey Kolesnikov 45 26 0 31 Jan 2023
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning Hanlin Zhu Paria Rashidinejad Jiantao Jiao OffRL 67 17 0 30 Jan 2023
Constrained Policy Optimization with Explicit Behavior Density for Offline Reinforcement Learning Jing Zhang Chi Zhang Wenjia Wang Bing-Yi Jing OffRL 40 8 0 28 Jan 2023
A Tutorial on Meta-Reinforcement Learning Jacob Beck Risto Vuorio Emmy Liu Zheng Xiong L. Zintgraf Chelsea Finn Shimon Whiteson OOD OffRL 92 126 0 19 Jan 2023
A Survey on Transformers in Reinforcement Learning Wenzhe Li Hao Luo Zichuan Lin Chongjie Zhang Zongqing Lu Deheng Ye OffRL MU AI4CE 44 56 0 08 Jan 2023
Benchmarks and Algorithms for Offline Preference-Based Reward Learning Daniel Shin Anca Dragan Daniel S. Brown OffRL 28 54 0 03 Jan 2023
Offline Policy Optimization in RL with Variance Regularizaton Riashat Islam Samarth Sinha Homanga Bharadhwaj Samin Yeasar Arnob Zhuoran Yang Animesh Garg Zhaoran Wang Lihong Li Doina Precup OffRL 35 0 0 29 Dec 2022
Critic-Guided Decoding for Controlled Text Generation Minbeom Kim Hwanhee Lee Kang Min Yoo Joonsuk Park Hwaran Lee Kyomin Jung 60 35 0 21 Dec 2022
Multi-embodiment Legged Robot Control as a Sequence Modeling Problem Chenyi Yu Weinan Zhang H. Lai Zheng Tian L. Kneip Jun Wang 57 15 0 18 Dec 2022
Safe Evaluation For Offline Learning: Are We Ready To Deploy? Hager Radi Josiah P. Hanna Peter Stone Matthew E. Taylor OffRL ELM 44 0 0 16 Dec 2022
Offline Reinforcement Learning for Visual Navigation Dhruv Shah Arjun Bhorkar Hrish Leen Ilya Kostrikov Nicholas Rhinehart Sergey Levine OffRL 29 29 0 16 Dec 2022
Confidence-Conditioned Value Functions for Offline Reinforcement Learning Joey Hong Aviral Kumar Sergey Levine OffRL 44 20 0 08 Dec 2022
Model-based trajectory stitching for improved behavioural cloning and its applications Charles A. Hepburn Giovanni Montana OffRL 48 5 0 08 Dec 2022
Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble Chong Li OffRL 37 0 0 07 Dec 2022
Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce Order Fraud Evaluation Soysal Degirmenci Chris Jones OffRL 34 1 0 05 Dec 2022
Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning Guoxi Zhang H. Kashima OffRL 43 2 0 29 Nov 2022
Is Conditional Generative Modeling all you need for Decision-Making? Anurag Ajay Yilun Du Abhi Gupta J. Tenenbaum Tommi Jaakkola Pulkit Agrawal DiffM 79 376 0 28 Nov 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 31 5 0 28 Nov 2022
Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes Aviral Kumar Rishabh Agarwal Xinyang Geng George Tucker Sergey Levine OffRL 48 48 0 28 Nov 2022
Domain Generalization for Robust Model-Based Offline Reinforcement Learning Alan Clark Shoaib Ahmed Siddiqui Robert Kirk Usman Anwar Stephen Chung David M. Krueger OOD OffRL 48 0 0 27 Nov 2022
Multi-Environment Pretraining Enables Transfer to Action Limited Datasets David Venuto Sherry Yang Pieter Abbeel Doina Precup Igor Mordatch Ofir Nachum OffRL 37 5 0 23 Nov 2022
Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning Alex Beeson Giovanni Montana OffRL OnRL 42 24 0 21 Nov 2022
Model-based Trajectory Stitching for Improved Offline Reinforcement Learning Charles A. Hepburn Giovanni Montana OffRL 39 14 0 21 Nov 2022
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows D. Akimov Vladislav Kurenkov Alexander Nikulin Denis Tarasov Sergey Kolesnikov OffRL 55 10 0 20 Nov 2022
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size Alexander Nikulin Vladislav Kurenkov Denis Tarasov Dmitry Akimov Sergey Kolesnikov OffRL 49 15 0 20 Nov 2022
Learning Reward Functions for Robotic Manipulation by Observing Humans Minttu Alakuijala Gabriel Dulac-Arnold Julien Mairal Jean Ponce Cordelia Schmid OffRL 44 27 0 16 Nov 2022
Offline Reinforcement Learning with Adaptive Behavior Regularization Yunfan Zhou Xijun Li Qingyu Qu OffRL 38 1 0 15 Nov 2022
Contextual Transformer for Offline Meta Reinforcement Learning Runji Lin Ye Li Xidong Feng Zhaowei Zhang Xian Hong Wu Fung Haifeng Zhang Jun Wang Yali Du Yaodong Yang OffRL 31 6 0 15 Nov 2022
On the Global Convergence of Fitted Q-Iteration with Two-layer Neural Network Parametrization Mudit Gaur Vaneet Aggarwal Mridul Agarwal MLT 53 1 0 14 Nov 2022
CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality Gianluigi Grandesso Elisa Alboni G. P. R. Papini Patrick M. Wensing Andrea Del Prete 35 15 0 12 Nov 2022
Spatio-temporal Incentives Optimization for Ride-hailing Services with Offline Deep Reinforcement Learning Yanqiu Wu Qingyang Li Zhiwei Qin OffRL 20 3 0 06 Nov 2022
Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement Learning D. Elbaz Gal Novik Oren Salzman OffRL 58 0 0 06 Nov 2022
Contrastive Value Learning: Implicit Models for Simple Offline RL Bogdan Mazoure Benjamin Eysenbach Ofir Nachum Jonathan Tompson SSL OffRL 67 8 0 03 Nov 2022
Dual Generator Offline Reinforcement Learning Q. Vuong Aviral Kumar Sergey Levine Yevgen Chebotar OffRL 46 1 0 02 Nov 2022
Learning on the Job: Self-Rewarding Offline-to-Online Finetuning for Industrial Insertion of Novel Connectors from Vision Ashvin Nair Brian Zhu Gokul Narayanan Eugen Solowjow Sergey Levine OffRL OnRL 56 16 0 27 Oct 2022
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning Yi Zhao Rinu Boney Alexander Ilin Arno Solin Joni Pajarinen OffRL OnRL 33 40 0 25 Oct 2022
Dichotomy of Control: Separating What You Can Control from What You Cannot Mengjiao Yang Dale Schuurmans Pieter Abbeel Ofir Nachum OffRL 35 42 0 24 Oct 2022
MoCoDA: Model-based Counterfactual Data Augmentation Silviu Pitis Elliot Creager Ajay Mandlekar Animesh Garg OffRL 53 34 0 20 Oct 2022