Title
Sample Efficient Reinforcement Learning via Large Vision Language Model Distillation Donghoon Lee Tung M. Luu Younghwan Lee Chang D. Yoo OffRL VLM 14 0 0 16 May 2025
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM Thang Duong Minglai Yang Chicheng Zhang OffRL 29 0 0 16 May 2025
Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data? Grgur Kovač Jérémy Perez Rémy Portelas Peter Ford Dominey Pierre-Yves Oudeyer 37 0 0 04 Apr 2025
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search Maohao Shen Guangtao Zeng Zhenting Qi Zhang-Wei Hong Zhenfang Chen Wei Lu G. Wornell Subhro Das David D. Cox Chuang Gan LLMAG LRM 246 8 0 04 Feb 2025
The State of Robot Motion Generation Kostas E. Bekris Joe H. Doerr Patrick Meng Sumanth Tangirala 3DV 41 2 0 16 Oct 2024
RL, but don't do anything I wouldn't do Michael K. Cohen Marcus Hutter Yoshua Bengio Stuart J. Russell OffRL 35 2 0 08 Oct 2024
Proximal Policy Distillation Giacomo Spigler OffRL 28 1 0 21 Jul 2024
Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning Hui Bai Ran Cheng 58 4 0 12 Apr 2024
Enhancing Reinforcement Learning Agents with Local Guides Paul Daoudi Bogdan Robu Christophe Prieur Ludovic Dos Santos M. Barlier OnRL 31 3 0 21 Feb 2024
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents Zihao Zhou Bin-Bin Hu Chenyang Zhao Pu Zhang Bin Liu LLMAG 37 9 0 22 Nov 2023
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning Tuomas Haarnoja Ben Moran Guy Lever Sandy H. Huang Dhruva Tirumala ... Andrea Huber N. Hurley F. Nori R. Hadsell N. Heess 50 143 0 26 Apr 2023
Multi-Task Reinforcement Learning in Continuous Control with Successor Feature-Based Concurrent Composition Y. Liu Aamir Ahmad 29 4 0 24 Mar 2023
Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks C. Acar Kuluhan Binici Alp Tekirdag Yan Wu 37 1 0 13 Mar 2023
Guarded Policy Optimization with Imperfect Online Demonstrations Zhenghai Xue Zhenghao Peng Quanyi Li Zhihan Liu Bolei Zhou OffRL 51 10 0 03 Mar 2023
Understanding plasticity in neural networks Clare Lyle Zeyu Zheng Evgenii Nikishin Bernardo Avila-Pires Razvan Pascanu Will Dabney AI4CE 45 98 0 02 Mar 2023
Developing Driving Strategies Efficiently: A Skill-Based Hierarchical Reinforcement Learning Approach Yigit Gurses Kaan Buyukdemirci Y. Yildiz 31 5 0 04 Feb 2023
Human-Timescale Adaptation in an Open-Ended Task Space Adaptive Agent Team Jakob Bauer Kate Baumli Satinder Baveja Feryal M. P. Behbahani ... Jakub Sygnowski K. Tuyls Sarah York Alexander Zacherl Lei Zhang LM&Ro OffRL AI4CE LRM 40 110 0 18 Jan 2023
SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended Exploration Giulia Vezzani Dhruva Tirumala Markus Wulfmeier Dushyant Rao A. Abdolmaleki ... Tim Hertweck Thomas Lampe Fereshteh Sadeghi N. Heess Martin Riedmiller OffRL 43 6 0 24 Nov 2022
Probing Transfer in Deep Reinforcement Learning without Task Engineering Andrei A. Rusu Sebastian Flennerhag Dushyant Rao Razvan Pascanu R. Hadsell 39 6 0 22 Oct 2022
Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems Arne Gevaert Jonathan Peck Yvan Saeys 31 1 0 07 Sep 2022
Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress Rishabh Agarwal Max Schwarzer Pablo Samuel Castro Rameswar Panda Marc G. Bellemare OffRL OnRL 37 63 0 03 Jun 2022
How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation Alex X. Lee Coline Devin Jost Tobias Springenberg Yuxiang Zhou Thomas Lampe A. Abdolmaleki Konstantinos Bousmalis OffRL OnRL 26 15 0 06 May 2022
Red Teaming Language Models with Language Models Ethan Perez Saffron Huang Francis Song Trevor Cai Roman Ring John Aslanides Amelia Glaese Nat McAleese G. Irving AAML 13 613 0 07 Feb 2022
Automated Reinforcement Learning (AutoRL): A Survey and Open Problems Jack Parker-Holder Raghunandan Rajan Xingyou Song André Biedenkapp Yingjie Miao ... Vu-Linh Nguyen Roberto Calandra Aleksandra Faust Frank Hutter Marius Lindauer AI4CE 33 100 0 11 Jan 2022
Deep Reinforcement Learning for Wireless Resource Allocation Using Buffer State Information Eike-Manuel Bansbach Victor Eliachevitch Laurent Schmalen 33 4 0 27 Aug 2021
Open-Ended Learning Leads to Generally Capable Agents Open-Ended Learning Team Adam Stooke Anuj Mahajan Catarina Barros Charlie Deck ... Nicolas Porcel Roberta Raileanu Steph Hughes-Fitt Valentin Dalibard Wojciech M. Czarnecki 55 181 0 27 Jul 2021
Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning Agents via Neural Architecture Search Y. Fu Zhongzhi Yu Yongan Zhang Yingyan Lin 22 4 0 24 Dec 2020
Open Problems in Cooperative AI Allan Dafoe Edward Hughes Yoram Bachrach Tantum Collins Kevin R. McKee Joel Z Leibo Kate Larson T. Graepel 42 200 0 15 Dec 2020
Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning Maximilian Igl Gregory Farquhar Jelena Luketina Wendelin Boehmer Shimon Whiteson 27 85 0 10 Jun 2020
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer Tianpei Yang Jianye Hao Zhaopeng Meng Zongzhang Zhang Yujing Hu ... Changjie Fan Weixun Wang Wulong Liu Zhaodong Wang J. Peng OffRL 22 12 0 19 Feb 2020
Provably Efficient Online Hyperparameter Optimization with Population-Based Bandits Jack Parker-Holder Vu Nguyen Stephen J. Roberts OffRL 75 83 0 06 Feb 2020
Discrete and Continuous Action Representation for Practical RL in Video Games Olivier Delalleau Maxim Peter Eloi Alonso Adrien Logut 25 52 0 23 Dec 2019
A Survey of Deep Reinforcement Learning in Video Games Kun Shao Zhentao Tang Yuanheng Zhu Nannan Li Dongbin Zhao OffRL AI4TS 43 188 0 23 Dec 2019
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control H. F. Song A. Abdolmaleki Jost Tobias Springenberg Aidan Clark Hubert Soyer ... Dhruva Tirumala N. Heess Dan Belov Martin Riedmiller M. Botvinick 37 121 0 26 Sep 2019
Attentive Multi-Task Deep Reinforcement Learning Timo Bram Gino Brunner Oliver Richter Roger Wattenhofer CLL 23 18 0 05 Jul 2019
Adapting Auxiliary Losses Using Gradient Similarity Yunshu Du Wojciech M. Czarnecki Siddhant M. Jayakumar Mehrdad Farajtabar Razvan Pascanu Balaji Lakshminarayanan 35 156 0 05 Dec 2018
SmartChoices: Hybridizing Programming and Machine Learning Victor Carbune Thierry Coppey A. Daryin Thomas Deselaers Nikhil Sarda J. Yagnik 24 2 0 01 Oct 2018
Multi-Agent Reinforcement Learning: A Report on Challenges and Approaches Sanyam Kapoor 27 31 0 25 Jul 2018