Off-Policy Deep Reinforcement Learning without Exploration

7 December 2018

Papers citing "Off-Policy Deep Reinforcement Learning without Exploration"

50 / 415 papers shown

Title
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 249 422 0 16 Feb 2021
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators Anish Agarwal Abdullah Alomar Varkey Alumootil Devavrat Shah Dennis Shen Zhi Xu Cindy Yang OffRL 33 18 0 13 Feb 2021
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned Julian Ibarz Jie Tan Chelsea Finn Mrinal Kalakrishnan P. Pastor Sergey Levine OffRL 56 522 0 04 Feb 2021
NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning Rongjun Qin Songyi Gao Xingyuan Zhang Zhen Xu Shengkai Huang Zewen Li Weinan Zhang Yang Yu OffRL 145 80 0 01 Feb 2021
Is Pessimism Provably Efficient for Offline RL? Ying Jin Zhuoran Yang Zhaoran Wang OffRL 32 350 0 30 Dec 2020
POPO: Pessimistic Offline Policy Optimization Qiang He Xinwen Hou OffRL 48 10 0 26 Dec 2020
Social NCE: Contrastive Learning of Socially-aware Motion Representations Yuejiang Liu Qi Yan Alexandre Alahi 45 101 0 21 Dec 2020
Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation Chaochao Lu Erdun Gao Ke Wang José Miguel Hernández-Lobato Kun Zhang Bernhard Schölkopf CML OOD OffRL 49 57 0 16 Dec 2020
Semi-supervised reward learning for offline reinforcement learning Ksenia Konyushkova Konrad Zolna Y. Aytar Alexander Novikov Scott E. Reed Serkan Cabi Nando de Freitas SSL OffRL 81 23 0 12 Dec 2020
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning Mohammad Babaeizadeh M. Saffar Danijar Hafner Harini Kannan Chelsea Finn Sergey Levine D. Erhan VLM 27 9 0 08 Dec 2020
Offline Learning from Demonstrations and Unlabeled Experience Konrad Zolna Alexander Novikov Ksenia Konyushkova Çağlar Gülçehre Ziyun Wang Y. Aytar Misha Denil Nando de Freitas Scott E. Reed SSL OffRL 39 67 0 27 Nov 2020
Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale Inversion Problem Eric T. Chung Y. Efendiev W. Leung Sai-Mang Pun Zecheng Zhang 19 12 0 17 Nov 2020
PLAS: Latent Action Space for Offline Reinforcement Learning Wenxuan Zhou Sujay Bajracharya David Held OffRL 38 158 0 14 Nov 2020
Sim-to-Real Transfer for Vision-and-Language Navigation Peter Anderson Ayush Shrivastava Joanne Truong Arjun Majumdar Devi Parikh Dhruv Batra Stefan Lee LM&Ro 43 106 0 07 Nov 2020
Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations using Generative Models Yuchen Wu Melissa Mozifian Florian Shkurti 34 21 0 02 Nov 2020
Cooperative Heterogeneous Deep Reinforcement Learning Han Zheng Pengfei Wei Jing Jiang Guodong Long Qinghua Lu Chengqi Zhang 58 12 0 02 Nov 2020
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning Avi Singh Albert Yu Jonathan Yang Jesse Zhang Aviral Kumar Sergey Levine SSL OffRL OnRL 35 103 0 27 Oct 2020
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 58 39 0 27 Oct 2020
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning Anurag Ajay Aviral Kumar Pulkit Agrawal Sergey Levine Ofir Nachum OffRL OnRL 46 156 0 26 Oct 2020
CoinDICE: Off-Policy Confidence Interval Estimation Bo Dai Ofir Nachum Yinlam Chow Lihong Li Csaba Szepesvári Dale Schuurmans OffRL 34 84 0 22 Oct 2020
Model-based Policy Optimization with Unsupervised Model Adaptation Jian Shen Han Zhao Weinan Zhang Yong Yu 51 28 0 19 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 45 93 0 12 Oct 2020
Online Safety Assurance for Deep Reinforcement Learning Noga H. Rotman Michael Schapira Aviv Tamar OffRL 46 5 0 07 Oct 2020
Learning Arbitrary-Goal Fabric Folding with One Hour of Real Robot Experience Robert Lee Daniel Ward Akansel Cosgun Vibhavari Dasagi Peter Corke Jurgen Leitner SSL 41 66 0 07 Oct 2020
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization Lanqing Li Rui Yang Dijun Luo OffRL 40 10 0 02 Oct 2020
The Importance of Pessimism in Fixed-Dataset Policy Optimization Jacob Buckman Carles Gelada Marc G. Bellemare OffRL 47 137 0 15 Sep 2020
Learning Off-Policy with Online Planning Harshit S. Sikchi Wenxuan Zhou David Held OffRL 48 46 0 23 Aug 2020
Offline Meta-Reinforcement Learning with Advantage Weighting E. Mitchell Rafael Rafailov Xue Bin Peng Sergey Levine Chelsea Finn OffRL 47 104 0 13 Aug 2020
Learning Power Control from a Fixed Batch of Data M. Khoshkholgh H. Yanikomeroglu OffRL 28 2 0 05 Aug 2020
QPLEX: Duplex Dueling Multi-Agent Q-Learning Jianhao Wang Zhizhou Ren Terry Liu Yang Yu Chongjie Zhang OffRL 56 442 0 03 Aug 2020
Batch Policy Learning in Average Reward Markov Decision Processes Peng Liao Zhengling Qi Runzhe Wan P. Klasnja Susan Murphy OffRL 43 81 0 23 Jul 2020
EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL Seyed Kamyar Seyed Ghasemipour Dale Schuurmans S. Gu OffRL 224 119 0 21 Jul 2020
Hyperparameter Selection for Offline Reinforcement Learning T. Paine Cosmin Paduraru Andrea Michi Çağlar Gülçehre Konrad Zolna Alexander Novikov Ziyun Wang Nando de Freitas GP OffRL 56 146 0 17 Jul 2020
Provably Good Batch Reinforcement Learning Without Great Exploration Yao Liu Adith Swaminathan Alekh Agarwal Emma Brunskill OffRL 32 105 0 16 Jul 2020
Counterfactual Data Augmentation using Locally Factored Dynamics Silviu Pitis Elliot Creager Animesh Garg BDL OffRL 31 87 0 06 Jul 2020
Critic Regularized Regression Ziyun Wang Alexander Novikov Konrad Zolna Jost Tobias Springenberg Scott E. Reed ... Noah Y. Siegel J. Merel Çağlar Gülçehre N. Heess Nando de Freitas OffRL 61 319 0 26 Jun 2020
Learning predictive representations in autonomous driving to improve deep reinforcement learning D. Graves Nhat M. Nguyen Kimia Hassanzadeh Jun Jin SSL 31 12 0 26 Jun 2020
WD3: Taming the Estimation Bias in Deep Reinforcement Learning Qiang He Xinwen Hou OffRL 19 28 0 18 Jun 2020
Off-policy Bandits with Deficient Support Noveen Sachdeva Yi-Hsun Su Thorsten Joachims OffRL 38 75 0 16 Jun 2020
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair Abhishek Gupta Murtaza Dalal Sergey Levine OffRL OnRL 51 596 0 16 Jun 2020
Non-local Policy Optimization via Diversity-regularized Collaborative Exploration Zhenghao Peng Hao Sun Bolei Zhou 32 18 0 14 Jun 2020
Self-Supervised Reinforcement Learning for Recommender Systems Xin Xin Alexandros Karatzoglou Ioannis Arapakis J. Jose SSL OffRL 37 200 0 10 Jun 2020
Conservative Q-Learning for Offline Reinforcement Learning Aviral Kumar Aurick Zhou George Tucker Sergey Levine OffRL OnRL 60 1,758 0 08 Jun 2020
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies Nathan Kallus Masatoshi Uehara OffRL 19 15 0 06 Jun 2020
Acme: A Research Framework for Distributed Reinforcement Learning Matthew W. Hoffman Bobak Shahriari John Aslanides Gabriel Barth-Maron Nikola Momchev ... Srivatsan Srinivasan A. Cowie Ziyun Wang Bilal Piot Nando de Freitas 67 225 0 01 Jun 2020
Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization Jianhao Wang Zhizhou Ren Beining Han Jianing Ye Chongjie Zhang OffRL 46 34 0 31 May 2020
Goal-conditioned Batch Reinforcement Learning for Rotation Invariant Locomotion Aditi Mavalankar OffRL 40 7 0 17 Apr 2020
D4RL: Datasets for Deep Data-Driven Reinforcement Learning Justin Fu Aviral Kumar Ofir Nachum George Tucker Sergey Levine GP OffRL 140 1,326 0 15 Apr 2020
An empirical investigation of the challenges of real-world reinforcement learning Gabriel Dulac-Arnold Nir Levine D. Mankowitz Jerry Li Cosmin Paduraru Sven Gowal Todd Hester OffRL 48 122 0 24 Mar 2020
Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding Hongseok Namkoong Ramtin Keramati Steve Yadlowsky Emma Brunskill OffRL 29 63 0 12 Mar 2020