The Difficulty of Passive Learning in Deep Reinforcement Learning

The Difficulty of Passive Learning in Deep Reinforcement Learning

26 October 2021

Georg Ostrovski

Pablo Samuel Castro

Papers citing "The Difficulty of Passive Learning in Deep Reinforcement Learning"

16 / 16 papers shown

Title
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach Henrique Donâncio Antoine Barrier Leah F. South Florence Forbes 28 0 0 16 Oct 2024
MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL C. Voelcker Marcel Hussing Eric Eaton Amir-massoud Farahmand Igor Gilitschenski 41 1 0 11 Oct 2024
Aligning Agents like Large Language Models Adam Jelley Yuhan Cao Dave Bignell Sam Devlin Tabish Rashid LM&Ro 44 1 0 06 Jun 2024
Understanding the performance gap between online and offline alignment algorithms Yunhao Tang Daniel Guo Zeyu Zheng Daniele Calandriello Yuan Cao ... Rémi Munos Bernardo Avila-Pires Michal Valko Yong Cheng Will Dabney OffRL OnRL 27 61 0 14 May 2024
The Curse of Diversity in Ensemble-Based Exploration Zhixuan Lin P. DÓro Evgenii Nikishin Rameswar Panda 42 1 0 07 May 2024
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration Yibo Wang Jiang Zhao OffRL OnRL 25 0 0 31 Mar 2024
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias Max Sobol Mark Archit Sharma Fahim Tajwar Rafael Rafailov Sergey Levine Chelsea Finn OffRL OnRL 34 1 0 12 Oct 2023
Bigger, Better, Faster: Human-level Atari with human-level efficiency Max Schwarzer J. Obando-Ceron Rameswar Panda Marc G. Bellemare Rishabh Agarwal Pablo Samuel Castro OffRL 54 83 0 30 May 2023
Passive learning of active causal strategies in agents and language models Andrew Kyle Lampinen Stephanie C. Y. Chan Ishita Dasgupta A. Nam Jane X. Wang 29 15 0 25 May 2023
Efficient Deep Reinforcement Learning Requires Regulating Overfitting Qiyang Li Aviral Kumar Ilya Kostrikov Sergey Levine OffRL 24 31 0 20 Apr 2023
The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning Henrique Donancio L. Vercouter H. Roclawski AI4CE 18 1 0 20 Oct 2022
CUP: Critic-Guided Policy Reuse Jin Zhang Siyuan Li Chongjie Zhang 29 8 0 15 Oct 2022
Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks Litian Liang Yaosheng Xu Stephen Marcus McAleer Dailin Hu Alexander Ihler Pieter Abbeel Roy Fox OOD 24 16 0 16 Sep 2022
Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress Rishabh Agarwal Max Schwarzer Pablo Samuel Castro Rameswar Panda Marc G. Bellemare OffRL OnRL 31 63 0 03 Jun 2022
Continuous Doubly Constrained Batch Reinforcement Learning Rasool Fakoor Jonas W. Mueller Kavosh Asadi Pratik Chaudhari Alex Smola OffRL 204 27 0 18 Feb 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,960 0 04 May 2020