Title
Elevating Styled Mahjong Agents with Learning from Demonstration Lingfeng Li Yunlong Lu Yongyi Wang Wenxin Li LLMAG 27 0 0 20 Jun 2025
Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning Guozheng Ma Lu Li Zilin Wang Li Shen Pierre-Luc Bacon Dacheng Tao OffRL 27 0 0 20 Jun 2025
Sequential Policy Gradient for Adaptive Hyperparameter Optimization Zheng Li Jerry Q. Cheng Huanying Gu OffRL 26 0 0 18 Jun 2025
Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning Roger Creus Castanyer J. Obando-Ceron Lu Li Pierre-Luc Bacon Glen Berseth Aaron Courville Pablo Samuel Castro 27 0 0 18 Jun 2025
ExoStart: Efficient learning for dexterous manipulation with sensorized exoskeleton demonstrations Zilin Si José Enrique Chen M. Emre Karagozler Antonia Bronars Jonathan Hutchinson ... M. Martins Konstantinos Bousmalis N. Heess F. Nori Maria Bauza Villalonga 33 0 0 13 Jun 2025
Magistral Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada ... Virgile Richard Wen-Ding Li William Marshall Xuanyu Zhang Yunhao Tang OffRL ReLM MoE AI4TS LRM 142 0 0 12 Jun 2025
Interpreting learned search: finding a transition model and value function in an RNN that plays Sokoban Mohammad Taufeeque Aaron David Tucker Adam Gleave Adrià Garriga-Alonso 40 0 0 11 Jun 2025
Test-Time Adaptation for Generalizable Task Progress Estimation Christos Ziakas Alessandra Russo TTA 60 0 0 11 Jun 2025
Intention-Conditioned Flow Occupancy Models Chongyi Zheng S. Park Sergey Levine Benjamin Eysenbach AI4TS OffRL AI4CE 48 0 0 10 Jun 2025
Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning Seungho Baek Taegeon Park Jongchan Park Seungjun Oh Yusung Kim OffRL 33 0 0 09 Jun 2025
Action-Adaptive Continual Learning: Enabling Policy Generalization under Dynamic Action Spaces Chaofan Pan Jiafen Liu Yanhua Li Linbo Xiong Fan Min Wei Wei Xin Yang CLL 55 0 0 06 Jun 2025
Horizon Reduction Makes RL Scalable Seohong Park Kevin Frans Deepinder Mann Benjamin Eysenbach Aviral Kumar Sergey Levine OffRL 96 0 0 04 Jun 2025
Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning Théo Vincent Yogesh Tripathi Tim Lukas Faust Yaniv Oren Jan Peters Carlo DÉramo CLL 36 0 0 04 Jun 2025
NetPress: Dynamically Generated LLM Benchmarks for Network Applications Yajie Zhou Jiajun Ruan Eric S. Wang Sadjad Fouladi Francis Y. Yan Kevin Hsieh Zaoxing Liu 36 0 0 03 Jun 2025
Optimistic critics can empower small actors Olya Mastikhina Dhruv Sreenivas Pablo Samuel Castro 72 0 0 01 Jun 2025
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning Wei Fu Jiaxuan Gao Xujie Shen Chen Zhu Zhiyu Mei ... Jun Mei Jiashu Wang Tongkai Yang Binhang Yuan Yi Wu OffRL SyDa LRM 76 0 0 30 May 2025
Extremum Flow Matching for Offline Goal Conditioned Reinforcement Learning Quentin Rouxel Clemente Donoso Fei Chen S. Ivaldi Jean-Baptiste Mouret OffRL 128 0 0 26 May 2025
Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning Ghada Sokar Pablo Samuel Castro 57 0 0 23 May 2025
Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution Jiawei Du Jinlong Wu Yuzheng Chen Yucheng Hu Bing Li Joey Tianyi Zhou 253 0 0 23 May 2025
Hadamax Encoding: Elevating Performance in Model-Free Atari Jacob E. Kooi Zhao Yang Vincent François-Lavet 81 1 0 21 May 2025
Generative AI for Autonomous Driving: A Review Katharina Winter Abhishek Vivekanandan Rupert Polley Yinzhe Shen Christian Schlauch ... Christian Wirth Omer Sahin Tas Nadja Klein Fabian B. Flohr Hanno Gottschalk 94 0 0 21 May 2025
Semantically-driven Deep Reinforcement Learning for Inspection Path Planning Grzegorz Malczyk Mihir Kulkarni Kostas Alexis 71 0 0 20 May 2025
Building spatial world models from sparse transitional episodic memories Zizhan He Maxime Daigle Pouya Bashivan KELM 58 0 0 19 May 2025
Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning Dongsu Lee Minhae Kwon OffRL 93 0 0 19 May 2025
Deep reinforcement learning-based longitudinal control strategy for automated vehicles at signalised intersections Pankaj Kumar Aditya Mishra Pranamesh Chakraborty Subrahmanya Swamy Peruru 96 0 0 13 May 2025
Combining Bayesian Inference and Reinforcement Learning for Agent Decision Making: A Review Chengmin Zhou Ville Kyrki Pasi Fränti Laura Ruotsalainen BDL AI4CE 121 0 0 12 May 2025
CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations Anthony Liang Pavel Czempin Matthew Hong Yutai Zhou Erdem Biyik Stephen Tu 152 1 0 08 May 2025
Onboard Optimization and Learning: A Survey Monirul Islam Pavel Siyi Hu Mahardhika Pratama Ryszard Kowalczyk 70 0 0 07 May 2025
Enhancing Diversity in Parallel Agents: A Maximum State Entropy Exploration Story Vincenzo De Paola Riccardo Zamboni Mirco Mutti Marcello Restelli 120 0 0 02 May 2025
Learning to Drive from a World Model Mitchell Goff Greg Hogan George Hotz Armand du Parc Locmaria Kacper Raczy Harald Schäfer Adeeb Shihadeh Weixing Zhang Yassine Yousfi 83 2 0 27 Apr 2025
Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning Tien Pham Angelo Cangelosi 71 1 0 14 Apr 2025
Using Reinforcement Learning to Integrate Subjective Wellbeing into Climate Adaptation Decision Making Arthur Vandervoort Miguel Costa Morten W. Petersen Martin Drews Sonja Haustein Karyn Morrissey Francisco C. Pereira 36 0 0 14 Apr 2025
Momentum Boosted Episodic Memory for Improving Learning in Long-Tailed RL Environments Dolton Fernandes Pramod Kaushik Harsh Shukla Bapi Raju Surampudi 53 0 0 08 Apr 2025
World Model Agents with Change-Based Intrinsic Motivation Jeremias Ferrao Rafael Cunha OffRL MoE 127 1 0 26 Mar 2025
CAE: Repurposing the Critic as an Explorer in Deep Reinforcement Learning Yexin Li Pring Wong Hanfang Zhang Shuo Chen Siyuan Qi OffRL 87 1 0 23 Mar 2025
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzciñski Benjamin Eysenbach SSL OffRL 124 2 0 19 Mar 2025
SocialJax: An Evaluation Suite for Multi-agent Reinforcement Learning in Sequential Social Dilemmas Zihao Guo Richard Willis Richard Willis Tristan Tomilin Joel Z Leibo Yali Du 122 0 0 18 Mar 2025
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs Nicolas Le Roux Marc G. Bellemare Jonathan Lebensold Arnaud Bergeron Joshua Greaves Alex Fréchette Carolyne Pelletier Eric Thibodeau-Laufer Sándor Toth Sam Work OffRL 183 6 0 18 Mar 2025
Agents Play Thousands of 3D Video Games Zhongwen Xu Xianliang Wang Siyi Li Tao Yu Liang Wang Qiang Fu Wei Yang LM&Ro 94 0 0 17 Mar 2025
Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model Moritz A. Zanger Pascal R. van der Vaart Wendelin Bohmer M. Spaan UQCV BDL 507 2 0 14 Mar 2025
Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning Raphael Trumpp Ansgar Schäfftlein Mirco Theile Marco Caccamo 102 1 0 07 Mar 2025
Eau De $Q$ -Network: Adaptive Distillation of Neural Networks in Deep Reinforcement Learning Théo Vincent Tim Lukas Faust Yogesh Tripathi Jan Peters Carlo DÉramo 78 0 0 03 Mar 2025
Multi-Agent Reinforcement Learning with Long-Term Performance Objectives for Service Workforce Optimization Kareem Eissa Rayal Prasad Sarith Mohan Ankur Kapoor Dorin Comaniciu V. Singh 66 0 0 03 Mar 2025
Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies Zhouyu He Peng Qiao Rongchun Li Yong Dou Yusong Tan OffRL 168 0 0 27 Feb 2025
DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents Taiyi Wang Zhihao Wu Jianheng Liu Jianye Hao Jun Wang Kun Shao OffRL 124 29 0 24 Feb 2025
Comply: Learning Sentences with Complex Weights inspired by Fruit Fly Olfaction Alexei Figueroa Justus Westerhoff Golzar Atefi Dennis Fast B. Winter Felix Alexader Gers Alexander Loser Wolfang Nejdl 189 0 0 03 Feb 2025
Divergence-Augmented Policy Optimization Qing Wang Yingru Li Jiechao Xiong Tong Zhang OffRL 174 16 0 28 Jan 2025
EvoRL: A GPU-accelerated Framework for Evolutionary Reinforcement Learning Bowen Zheng Ran Cheng Kay Chen Tan 100 0 0 25 Jan 2025
Adaptive Data Exploitation in Deep Reinforcement Learning Mingqi Yuan Bo Li Xin Jin Wenjun Zeng OffRL 459 0 0 22 Jan 2025
Highway Graph to Accelerate Reinforcement Learning Zidu Yin Zhen Zhang Dong Gong Stefano V. Albrecht J. Q. Shi OffRL 75 0 0 08 Jan 2025