Deep Reinforcement Learning at the Edge of the Statistical Precipice

30 August 2021

Aaron Courville

Papers citing "Deep Reinforcement Learning at the Edge of the Statistical Precipice"

50 / 453 papers shown

Title
ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations Jiahui Zhang Yusen Luo Abrar Anwar S. Sontakke Joseph J. Lim Jesse Thomason Erdem Biyik Jesse Zhang OffRL LM&Ro 10 0 0 16 May 2025
Meta-World+: An Improved, Standardized, RL Benchmark Reginald McLean Evangelos Chatzaroulas Luc McCutcheon Frank Röder Tianhe Yu ... Ryan C. Julian Jordan Terry Isaac Woungang Nariman Farsad P. S. Castro OffRL 5 0 0 16 May 2025
Fixing Incomplete Value Function Decomposition for Multi-Agent Reinforcement Learning Andrea Baisero Rupali Bhati Shuo Liu Aathira Pillai Christopher Amato 19 0 0 15 May 2025
Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity Taisuke Kobayashi CLL 41 0 0 29 Apr 2025
CaRL: Learning Scalable Planning Policies with Simple Rewards Bernhard Jaeger D. Dauner Jens Beißwenger Simon Gerstenecker Kashyap Chitta Andreas Geiger 54 0 0 24 Apr 2025
AlphaGrad: Non-Linear Gradient Normalization Optimizer Soham Sane ODL 56 0 0 22 Apr 2025
Surrogate Fitness Metrics for Interpretable Reinforcement Learning Philipp Altmann Céline Davignon Maximilian Zorn Fabian Ritz Claudia Linnhoff-Popien Thomas Gabor 29 0 0 20 Apr 2025
Plasticity-Aware Mixture of Experts for Learning Under QoE Shifts in Adaptive Video Streaming Zhiqiang He Zhi Liu 39 0 0 14 Apr 2025
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 97 4 0 09 Apr 2025
The Dual-Route Model of Induction Sheridan Feucht Eric Todd Byron C. Wallace David Bau 32 0 0 03 Apr 2025
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme Yan Ma Steffi Chern Xuyang Shen Yiran Zhong Pengfei Liu OffRL LRM 43 1 0 03 Apr 2025
On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations Rajdeep Singh Hundal Yan Xiao Xiaochun Cao J. Dong Manuel Rigger 46 0 0 28 Mar 2025
Perspective-Shifted Neuro-Symbolic World Models: A Framework for Socially-Aware Robot Navigation Kevin Alcedo Pedro U. Lima Rachid Alami 72 0 0 26 Mar 2025
Causally Aligned Curriculum Learning Mingxuan Li Junzhe Zhang Elias Bareinboim CML 61 3 0 21 Mar 2025
Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping David Snyder Asher Hancock Apurva Badithela Emma Dixon Patrick "Tree" Miller Rares Ambrus Anirudha Majumdar Masha Itkina Haruki Nishimura OffRL 82 1 0 14 Mar 2025
Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning Raphael Trumpp Ansgar Schäfftlein Mirco Theile Marco Caccamo 39 0 0 07 Mar 2025
Multi-Task Reinforcement Learning Enables Parameter Scaling Reginald McLean Evangelos Chataroulas Jordan Terry Isaac Woungang Nariman Farsad P. S. Castro LRM 44 0 0 07 Mar 2025
Learning Transformer-based World Models with Contrastive Predictive Coding Maxime Burchi Radu Timofte 67 0 0 06 Mar 2025
Target Return Optimizer for Multi-Game Decision Transformer Kensuke Tatematsu Akifumi Wachi OffRL 64 0 0 04 Mar 2025
A2Perf: Real-World Autonomous Agents Benchmark Ikechukwu Uchendu Jason J. Jabbour Korneel Van den Berghe Joel Runevic Matthew P. Stewart ... S. Guadarrama Jie Tan Jordan K. Terry Aleksandra Faust Vijay Janapa Reddi 32 0 0 04 Mar 2025
Eau De $Q$ -Network: Adaptive Distillation of Neural Networks in Deep Reinforcement Learning Théo Vincent Tim Lukas Faust Yogesh Tripathi Jan Peters Carlo DÉramo 37 0 0 03 Mar 2025
On Generalization Across Environments In Multi-Objective Reinforcement Learning Jayden Teoh Pradeep Varakantham Peter Vamplew OffRL 34 0 0 02 Mar 2025
Discrete Codebook World Models for Continuous Control Aidan Scannell Mohammadreza Nakhaei Kalle Kujanpää Yi Zhao Kevin Sebastian Luck Arno Solin J. Pajarinen OffRL 50 0 0 01 Mar 2025
Recurrent Auto-Encoders for Enhanced Deep Reinforcement Learning in Wilderness Search and Rescue Planning Jan-Hendrik Ewers David Anderson Douglas G. Thomson 55 0 0 26 Feb 2025
Yes, Q-learning Helps Offline In-Context RL Denis Tarasov Alexander Nikulin Ilya Zisman Albina Klepach Andrei Polubarov Nikita Lyubaykin Alexander Derevyagin Igor Kiselev Vladislav Kurenkov OffRL OnRL 159 0 0 24 Feb 2025
A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks Thomas Schmied Thomas Adler Vihang Patil M. Beck Korbinian Poppel Johannes Brandstetter G. Klambauer Razvan Pascanu Sepp Hochreiter 75 4 0 21 Feb 2025
Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability Carlos E. Luis A. Bottero Julia Vinogradska Felix Berkenkamp Jan Peters 78 1 0 20 Feb 2025
Improving Environment Novelty Quantification for Effective Unsupervised Environment Design Jayden Teoh Wenjun Li Pradeep Varakantham 55 1 0 08 Feb 2025
Mirror Descent Actor Critic via Bounded Advantage Learning Ryo Iwaki 93 0 0 06 Feb 2025
Beyond Interpolation: Extrapolative Reasoning with Reinforcement Learning and Graph Neural Networks Niccolò Grillo Andrea Toccaceli Joël Mathys Benjamin Estermann Stefania Fresca Roger Wattenhofer AI4CE LRM 104 0 0 06 Feb 2025
Evidence on the Regularisation Properties of Maximum-Entropy Reinforcement Learning Rémy Hosseinkhan Boucher Onofrio Semeraro L. Mathelin 74 0 0 28 Jan 2025
Learning Versatile Optimizers on a Compute Diet A. Moudgil Boris Knyazev Guillaume Lajoie Eugene Belilovsky 138 0 0 22 Jan 2025
Adaptive Data Exploitation in Deep Reinforcement Learning Mingqi Yuan Bo Li Xin Jin Wenjun Zeng OffRL 172 0 0 22 Jan 2025
EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning Siddharth Aravindan Dixant Mittal Wee Sun Lee BDL 79 0 0 17 Jan 2025
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps Benjamin Ellis Matthew Jackson Andrei Lupu Alexander David Goldie Mattie Fellows Shimon Whiteson Jakob Foerster 77 0 0 22 Dec 2024
Environment Descriptions for Usability and Generalisation in Reinforcement Learning Dennis J. N. J. Soemers Spyridon Samothrakis Kurt Driessens M. Winands OffRL 82 1 0 22 Dec 2024
Parseval Regularization for Continual Reinforcement Learning Wesley Chung Lynn Cherif D. Meger Doina Precup CLL 78 2 0 10 Dec 2024
Towards Type Agnostic Cyber Defense Agents Erick Galinkin Emmanouil Pountrourakis Spiros Mancoridis AAML 66 0 0 02 Dec 2024
Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation Huy Le Miroslav Gabriel Tai Hoang Gerhard Neumann Ngo Anh Vien 105 1 0 22 Nov 2024
BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices Anka Reuel Amelia F. Hardy Chandler Smith Max Lamparth Malcolm Hardy Mykel J. Kochenderfer ELM 81 17 0 20 Nov 2024
Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching A. Jain Harley Wiltzer Jesse Farebrother Irina Rish Glen Berseth Sanjiban Choudhury 52 1 0 11 Nov 2024
State Chrono Representation for Enhancing Generalization in Reinforcement Learning Jianda Chen Wen Zheng Terence Ng Zichen Chen Sinno Jialin Pan Tianwei Zhang OffRL 35 0 0 09 Nov 2024
Embedding Safety into RL: A New Take on Trust Region Methods Nikola Milosevic Johannes Müller Nico Scherf 25 1 0 05 Nov 2024
Beyond the Boundaries of Proximal Policy Optimization Charlie B. Tan Edan Toledo Benjamin Ellis Jakob Foerster Ferenc Huszár 21 0 0 01 Nov 2024
Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers Kai Yan A. Schwing Yu-xiong Wang OffRL OnRL 36 0 0 31 Oct 2024
CALE: Continuous Arcade Learning Environment Jesse Farebrother Pablo Samuel Castro ELM 31 0 0 31 Oct 2024
Multi-Agent Reinforcement Learning with Selective State-Space Models Jemma Daniel Ruan de Kock Louay Ben Nessir Sasha Abramowitz Omayma Mahjoub Wiem Khlifi Claude Formanek Arnu Pretorius Mamba 34 0 0 25 Oct 2024
PointPatchRL -- Masked Reconstruction Improves Reinforcement Learning on Point Clouds B. Gyenes Nikolai Franke P. Becker Gerhard Neumann 3DPC 45 0 0 24 Oct 2024
TabDPT: Scaling Tabular Foundation Models Junwei Ma Valentin Thomas Rasa Hosseinzadeh Hamidreza Kamkari Alex Labach Jesse C. Cresswell Keyvan Golestan Guangwei Yu M. Volkovs Anthony L. Caterini LMTD 34 3 0 23 Oct 2024
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration Max Wilcoxson Qiyang Li Kevin Frans Sergey Levine SSL OffRL OnRL 57 0 0 23 Oct 2024