SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

9 July 2020

Pieter Abbeel

Papers citing "SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning"

50 / 128 papers shown

Title
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration Zhihan Liu Miao Lu Wei Xiong Han Zhong Haotian Hu Shenao Zhang Sirui Zheng Zhuoran Yang Zhaoran Wang OffRL 42 22 0 29 May 2023
Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse Jiafei Lyu Le Wan Zongqing Lu Xiu Li OffRL 34 9 0 29 May 2023
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice Toshinori Kitamura Tadashi Kozuno Yunhao Tang Nino Vieillard Michal Valko ... Olivier Pietquin M. Geist Csaba Szepesvári Wataru Kumagai Yutaka Matsuo OffRL 30 2 0 22 May 2023
Deep Metric Tensor Regularized Policy Gradient Gang Chen Victoria Huang 28 0 0 18 May 2023
Ensemble Latent Space Roadmap for Improved Robustness in Visual Action Planning M. Lippi Michael C. Welle Andrea Gasparri Danica Kragic 30 0 0 27 Mar 2023
Balancing policy constraint and ensemble size in uncertainty-based offline reinforcement learning Alex Beeson Giovanni Montana OffRL 26 13 0 26 Mar 2023
A Survey of Demonstration Learning André Rosa de Sousa Porfírio Correia Luís A. Alexandre OffRL 36 17 0 20 Mar 2023
Replay Buffer with Local Forgetting for Adapting to Local Environment Changes in Deep Model-Based Reinforcement Learning Ali Rahimi-Kalahroudi Janarthanan Rajendran Ida Momennejad H. V. Seijen Sarath Chandar CLL KELM 36 2 0 15 Mar 2023
Bounding the Optimal Value Function in Compositional Reinforcement Learning Jacob Adamczyk Volodymyr Makarenko A. Arriojas Stas Tiomkin R. Kulkarni OffRL 37 2 0 05 Mar 2023
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control Amarildo Likmeta Matteo Sacco Alberto Maria Metelli Marcello Restelli OffRL 21 3 0 04 Mar 2023
Preference Transformer: Modeling Human Preferences using Transformers for RL Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 41 62 0 02 Mar 2023
Improving Deep Policy Gradients with Value Function Search Enrico Marchesini Chris Amato 26 9 0 20 Feb 2023
Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided Bounds on the Value Function Jacob Adamczyk Stas Tiomkin R. Kulkarni OffRL 22 0 0 19 Feb 2023
Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning Lukas Schafer Oliver Slumbers Stephen Marcus McAleer Yali Du Stefano V. Albrecht D. Mguni 82 7 0 07 Feb 2023
PRUDEX-Compass: Towards Systematic Evaluation of Reinforcement Learning in Financial Markets Shuo Sun Molei Qin Xinrun Wang Bo An FaML OffRL AIFin 24 4 0 14 Jan 2023
Confidence-Conditioned Value Functions for Offline Reinforcement Learning Joey Hong Aviral Kumar Sergey Levine OffRL 39 20 0 08 Dec 2022
CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous Control Xiang Zheng Xingjun Ma Cong Wang 28 1 0 28 Nov 2022
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size Alexander Nikulin Vladislav Kurenkov Denis Tarasov Dmitry Akimov Sergey Kolesnikov OffRL 33 14 0 20 Nov 2022
How to Enable Uncertainty Estimation in Proximal Policy Optimization Eugene Bykovets Yannick Metz Mennatallah El-Assady Daniel A. Keim J. M. Buhmann UQCV 13 1 0 07 Oct 2022
Exploration via Planning for Information about the Optimal Trajectory Viraj Mehta I. Char J. Abbate R. Conlin M. Boyer Stefano Ermon J. Schneider W. Neiswanger OffRL 27 6 0 06 Oct 2022
Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical Multi-Step Approach for Policy Training Gang Chen Victoria Huang OffRL 40 0 0 29 Sep 2022
DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning Simeon Adebola Satvik Sharma K. Shivakumar OffRL 18 1 0 26 Sep 2022
Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks Litian Liang Yaosheng Xu Stephen Marcus McAleer Dailin Hu Alexander Ihler Pieter Abbeel Roy Fox OOD 24 16 0 16 Sep 2022
Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping Hao Sun Lei Han Rui Yang Xiaoteng Ma Jian Guo Bolei Zhou OffRL OnRL 38 10 0 15 Sep 2022
Quantifying Aleatoric and Epistemic Uncertainty in Machine Learning: Are Conditional Entropy and Mutual Information Appropriate Measures? Lisa Wimmer Yusuf Sale Paul Hofman Bern Bischl Eyke Hüllermeier PER UD 39 65 0 07 Sep 2022
Normality-Guided Distributional Reinforcement Learning for Continuous Control Ju-Seung Byun Andrew Perrault OffRL 16 0 0 28 Aug 2022
Distributional Actor-Critic Ensemble for Uncertainty-Aware Continuous Control T. Kanazawa Haiyan Wang Chetan Gupta UQCV 27 4 0 27 Jul 2022
Anti-Overestimation Dialogue Policy Learning for Task-Completion Dialogue System T. Chang Wenpeng Yin Marie-Francine Moens OffRL 25 4 0 24 Jul 2022
Offline RL Policies Should be Trained to be Adaptive Dibya Ghosh Anurag Ajay Pulkit Agrawal Sergey Levine OffRL 35 45 0 05 Jul 2022
The Real Deal: A Review of Challenges and Opportunities in Moving Reinforcement Learning-Based Traffic Signal Control Systems Towards Reality Rex Chen Fei Fang Norman M. Sadeh 35 8 0 23 Jun 2022
Overcoming the Spectral Bias of Neural Value Approximation Ge Yang Anurag Ajay Pulkit Agrawal 34 25 0 09 Jun 2022
Critic Sequential Monte Carlo Vasileios Lioutas J. Lavington Justice Sefas Matthew Niedoba Yunpeng Liu Berend Zwartsenberg Setareh Dabiri Frank Wood Adam Scibior 47 7 0 30 May 2022
SEREN: Knowing When to Explore and When to Exploit Changmin Yu D. Mguni Dong Li Aivar Sootla Jun Wang Neil Burgess 11 1 0 30 May 2022
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters Seyed Kamyar Seyed Ghasemipour S. Gu Ofir Nachum OffRL 31 69 0 27 May 2022
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning Xinran Liang Katherine Shu Kimin Lee Pieter Abbeel 21 58 0 24 May 2022
ARLO: A Framework for Automated Reinforcement Learning Marco Mussi Davide Lombarda Alberto Maria Metelli F. Trovò Marcello Restelli OffRL 33 4 0 20 May 2022
Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble Zhengyu Yang Kan Ren Xufang Luo Minghuan Liu Weiqing Liu Jiang Bian Weinan Zhang Dongsheng Li 33 20 0 19 May 2022
Neighborhood Mixup Experience Replay: Local Convex Interpolation for Improved Sample Efficiency in Continuous Control Tasks Ryan M Sander Wilko Schwarting Tim Seyde Igor Gilitschenski S. Karaman Daniela Rus 41 2 0 18 May 2022
Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels Tianxin Tao Daniele Reda M. van de Panne ViT 11 19 0 11 Apr 2022
Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning Chenjia Bai Lingxiao Wang Zhuoran Yang Zhihong Deng Animesh Garg Peng Liu Zhaoran Wang OffRL 37 132 0 23 Feb 2022
A Behavior Regularized Implicit Policy for Offline Reinforcement Learning Shentao Yang Zhendong Wang Huangjie Zheng Yihao Feng Mingyuan Zhou OffRL 22 8 0 19 Feb 2022
VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning Che Wang Xufang Luo Keith Ross Dongsheng Li OffRL 26 49 0 17 Feb 2022
Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning Michael Teng M. van de Panne Frank Wood OOD OffRL 14 1 0 06 Feb 2022
DNS: Determinantal Point Process Based Neural Network Sampler for Ensemble Reinforcement Learning Hassam Sheikh Kizza M Nandyose Frisbee Mariano Phielipp 25 8 0 31 Jan 2022
Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation Vincent Mai Kaustubh Mani Liam Paull 36 34 0 05 Jan 2022
Continuous Control With Ensemble Deep Deterministic Policy Gradients Piotr Januszewski Mateusz Olko M. Królikowski J. Swiatkowski Marcin Andrychowicz Lukasz Kuciñski Piotr Milo's OffRL 13 9 0 30 Nov 2021
Adaptive Multi-Goal Exploration Jean Tarbouriech O. D. Domingues Pierre Ménard Matteo Pirotta Michal Valko A. Lazaric 18 2 0 23 Nov 2021
Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance Yanqiu Wu Xinyue Chen Che Wang Yiming Zhang Keith Ross OffRL 9 9 0 17 Nov 2021
Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates Litian Liang Yaosheng Xu Stephen Marcus McAleer Dailin Hu Alexander Ihler Pieter Abbeel Roy Fox 10 4 0 28 Oct 2021
False Correlation Reduction for Offline Reinforcement Learning Arvindkumar Krishnakumar Zuyue Fu Lingxiao Wang Zhuoran Yang Chenjia Bai Tianyi Zhou Judy Hoffman Jing Jiang OffRL 39 9 0 24 Oct 2021