Title
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang 9 0 0 18 May 2025
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks Feiran You Hongyang Du OffRL LRM 22 0 0 16 May 2025
DSADF: Thinking Fast and Slow for Decision Making Alex Zhihao Dou Dongfei Cui Jun Yan Wei Wang Benteng Chen Haoming Wang Zeke Xie Shufei Zhang OffRL 43 0 0 13 May 2025
Multi-agent Embodied AI: Advances and Future Directions Zhaohan Feng Ruiqi Xue Lei Yuan Yang Yu Ning Ding M. Liu Bingzhao Gao Jian Sun Gang Wang AI4CE 60 1 0 08 May 2025
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 45 2 0 12 Apr 2025
A Survey of Reinforcement Learning-Based Motion Planning for Autonomous Driving: Lessons Learned from a Driving Task Perspective Zhuoren Li Guizhe Jin Ran Yu Z. Chen Nan I. Li ... Lu Xiong Bo Leng Jia Hu Ilya Kolmanovsky Dimitar Filev 54 0 0 31 Mar 2025
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap Tong Nie Jian Sun Wei Ma 72 1 0 27 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 173 2 0 26 Mar 2025
LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning Yuan Wei Xiaohan Shan Jianmin Li 41 0 0 25 Mar 2025
A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli Pengyu Liu Guohua Dong D. Guo Kun Li Fengling Li Xun Yang Meng Wang Xiaomin Ying AI4CE 41 0 0 20 Mar 2025
ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models Zicheng Ma Chuanliu Fan Zhicong Wang Zhenyu Chen Xiaohan Lin Yong Li Shihao Feng Jun Zhang Ziqiang Cao Y. Gao 48 0 0 11 Mar 2025
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning Wenjie Wu Yongcheng Jing Yingjie Wang Wenbin Hu Dacheng Tao RALM LRM 72 2 0 03 Mar 2025
Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation Sha Li Naren Ramakrishnan RALM KELM 154 1 0 18 Feb 2025
Zero-shot Model-based Reinforcement Learning using Large Language Models Abdelhakim Benechehab Youssef Attia El Hili Ambroise Odonnat Oussama Zekri Albert Thomas Giuseppe Paolo Maurizio Filippone I. Redko Balázs Kégl OffRL 72 1 0 17 Feb 2025
CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning Yanxiao Zhao Yangge Qian Jingyang Shan Xiaolin Qin CLL 78 0 0 17 Feb 2025
3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning Guoqin Tang Qingxuan Jia Zeyuan Huang Gang Chen Ning Ji Zhipeng Yao 66 0 0 13 Feb 2025
A Comprehensive Survey of Foundation Models in Medicine Wasif Khan Seowung Leem Kyle B. See Joshua K. Wong Shaoting Zhang R. Fang AI4CE LM&MA VLM 105 18 0 17 Jan 2025
Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning Yun Qu Yuhang Jiang Boyuan Wang Yixiu Mao Cheems Wang Chang-Shu Liu Xiangyang Ji 80 2 0 10 Jan 2025
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents Wonje Choi Woo Kyung Kim SeungHyun Kim Honguk Woo 92 8 0 16 Dec 2024
Acceleration for Deep Reinforcement Learning using Parallel and Distributed Computing: A Survey Zhihong Liu Xin Xu Peng Qiao Dongsheng Li OffRL 27 2 0 08 Nov 2024
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback Qinqing Zheng Mikael Henaff Amy Zhang Aditya Grover Brandon Amos LLMAG OffRL 37 3 0 30 Oct 2024
Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies Jiajie Yu Yuhong Wang Wei Ma OffRL 42 1 0 14 Oct 2024
Words as Beacons: Guiding RL Agents with High-Level Language Prompts Unai Ruiz-Gonzalez Alain Andres Pedro G. Bascoy Javier Del Ser 30 0 0 11 Oct 2024
Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration Yun Qu Boyuan Wang Yuhang Jiang Jianzhun Shao Yixiu Mao Cheems Wang Chang Liu Xiangyang Ji 46 4 0 03 Oct 2024
A Survey on Complex Tasks for Goal-Directed Interactive Agents Mareike Hartmann Alexander Koller LM&Ro LLMAG 34 0 0 27 Sep 2024
A Survey for Deep Reinforcement Learning Based Network Intrusion Detection Wanrong Yang Alberto Acuto Yihang Zhou Dominik Wojtczak OffRL 36 2 0 25 Sep 2024
Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input Dimitrios Panagopoulos Adoldo Perrusquia Weisi Guo 35 2 0 20 Sep 2024
iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement Aoyu Pang Maonan Wang Man-On Pun Chung Shue Chen Xi Xiong 51 9 0 08 Jul 2024
$$\mathrm{E^{2}CFD}$: Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model$ $\mathrm{E^{2}CFD}$ : Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model Zepeng Wang Chao Ma Linjiang Zhou Libing Wu Lei Yang Xiaochuan Shi Guojun Peng OffRL 43 0 0 08 Jul 2024
ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models Xiyuan Zhou Huan Zhao Yuheng Cheng Yuji Cao Gaoqi Liang Guolong Liu Wenxuan Liu Yan Xu Junhua Zhao ELM 40 6 0 07 Jul 2024
Large Language Models are Biased Reinforcement Learners William M. Hayes Nicolas Yax Stefano Palminteri OffRL 45 1 0 19 May 2024
LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions Chuanneng Sun Songjun Huang D. Pompili LLMAG 45 29 0 17 May 2024
Can large language models explore in-context? Akshay Krishnamurthy Keegan Harris Dylan J. Foster Cyril Zhang Aleksandrs Slivkins LM&Ro LLMAG LRM 129 23 0 22 Mar 2024
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning Juan Rocamonde Victoriano Montesinos Elvis Nava Ethan Perez David Lindner VLM 37 76 0 19 Oct 2023
Reinforcement Learning with Knowledge Representation and Reasoning: A Brief Survey Chao Yu Xuejing Zheng H. Zhuo OffRL LRM 55 7 0 24 Apr 2023
RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in Dynamic Environments via Language-Based Feedback Souradip Chakraborty K. Weerakoon Prithvi Poddar Mohamed Bashir Elnoor Priya Narayanan Carl E. Busart Pratap Tokekar Amrit Singh Bedi Tianyi Zhou 29 3 0 14 Mar 2023
Masked World Models for Visual Control Younggyo Seo Danijar Hafner Hao Liu Fangchen Liu Stephen James Kimin Lee Pieter Abbeel OffRL 93 147 0 28 Jun 2022
Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble Zhengyu Yang Kan Ren Xufang Luo Minghuan Liu Weiqing Liu Jiang Bian Weinan Zhang Dongsheng Li 33 20 0 19 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 366 12,003 0 04 Mar 2022
Can Wikipedia Help Offline Reinforcement Learning? Machel Reid Yutaro Yamada S. Gu 3DV RALM OffRL 140 95 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 413 8,559 0 28 Jan 2022
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 77 330 0 11 Nov 2021
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 215 1,661 0 15 Oct 2021
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation Ajay Mandlekar Danfei Xu J. Wong Soroush Nasiriany Chen Wang Rohun Kulkarni Li Fei-Fei Silvio Savarese Yuke Zhu Roberto Martín-Martín OffRL 161 475 0 06 Aug 2021
Reward (Mis)design for Autonomous Driving W. B. Knox A. Allievi Holger Banzhaf Felix Schmitt Peter Stone 83 113 0 28 Apr 2021
Improving Generalization in Reinforcement Learning with Mixture Regularization Kaixin Wang Bingyi Kang Jie Shao Jiashi Feng 109 117 0 21 Oct 2020
Decoupling Representation Learning from Reinforcement Learning Adam Stooke Kimin Lee Pieter Abbeel Michael Laskin SSL DRL 284 341 0 14 Sep 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,505 0 23 Jan 2020