Title
SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis Shuang Sun Huatong Song Yuhao Wang Ruiyang Ren Jinhao Jiang ... Wayne Xin Zhao Zheng Liu Lei Fang Zhongyuan Wang Ji-Rong Wen LRM 70 5 0 22 May 2025
WebThinker: Empowering Large Reasoning Models with Deep Research Capability Xiaochen Li Jiajie Jin Guanting Dong Hongjin Qian Yutao Zhu Yongkang Wu Ji-Rong Wen Zhicheng Dou LLMAG LRM 196 19 0 30 Apr 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren Liu Liu ... Jianfeng Gao Weizhu Chen Shuaiqiang Wang Simon Shaolei Du Yelong Shen OffRL ReLM LRM 323 47 0 29 Apr 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning Zihan Wang Kaidi Wang Q. Wang Pingyue Zhang Linjie Li ... Jiajun Wu L. Fei-Fei Lijuan Wang Yejin Choi Manling Li 266 30 0 24 Apr 2025
Acting Less is Reasoning More! Teaching Model to Act Efficiently Hongru Wang Cheng Qian Wanjun Zhong Xiusi Chen Jiahao Qiu Shijue Huang Bowen Jin Mengdi Wang Kam-Fai Wong Heng Ji OffRL LRM 102 5 0 21 Apr 2025
ToolRL: Reward is All Tool Learning Needs Cheng Qian Emre Can Acikgoz Qi He Hongru Wang Xiusi Chen Dilek Hakkani-Tur Gokhan Tur Heng Ji OffRL LRM 139 32 0 16 Apr 2025
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs Jiazhan Feng Shijue Huang Xingwei Qu Ge Zhang Yujia Qin Baoquan Zhong Chengquan Jiang Jinxin Chi Wanjun Zhong OffRL ReLM SyDa KELM LRM 181 35 0 15 Apr 2025
ToRL: Scaling Tool-Integrated RL Xuefeng Li Haoyang Zou Pengfei Liu OffRL LRM 89 14 0 30 Mar 2025
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning M. Ben-Chen Tianpeng Li Haoze Sun Yijie Zhou Chenzheng Zhu ... Xin Wu Haofen Wang Jeff Z. Pan Wen Zhang Ningyu Zhang ReLM OffRL AI4TS LRM 154 23 0 25 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 192 137 0 24 Mar 2025
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 202 100 0 20 Mar 2025
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't Quy-Anh Dang Chris Ngo OffRL LRM 184 20 0 20 Mar 2025
DAPO: An Open-Source LLM Reinforcement Learning System at Scale Qiying Yu Zheng Zhang Ruofei Zhu Yufeng Yuan Xiaochen Zuo ... Ya Zhang Lin Yan Mu Qiao Yonghui Wu Mingxuan Wang OffRL LRM 229 217 0 18 Mar 2025
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning Bowen Jin Hansi Zeng Zhenrui Yue Dong Wang Sercan O. Arik Dong Wang Hamed Zamani Jiawei Han RALM ReLM KELM OffRL AI4TS LRM 222 122 0 12 Mar 2025
Agent models: Internalizing Chain-of-Action Generation into Reasoning models Yuxiang Zhang Yuqi Yang Jiangming Shu Xinyan Wen Jitao Sang LRM LLMAG LM&Ro 89 4 0 09 Mar 2025
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning Huatong Song Jinhao Jiang Yingqian Min Jie Chen Zhongfu Chen Wayne Xin Zhao Lei Fang Ji-Rong Wen AI4TS LRM KELM 192 43 0 07 Mar 2025
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs Dayu Yang Tianyang Liu Daoan Zhang Antoine Simoulin Xiaoyi Liu ... Zhaopu Teng Xin Qian Grey Yang Jiebo Luo Julian McAuley ReLM OffRL LRM 151 12 0 26 Feb 2025
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning Pan Lu Bowen Chen Sheng Liu Rahul Thapa Joseph Boen James Zou LRM 71 13 0 16 Feb 2025
Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research Junde Wu Jiayuan Zhu Yuyuan Liu LRM 114 25 0 07 Feb 2025
LIMO: Less is More for Reasoning Yixin Ye Zhen Huang Yang Xiao Ethan Chern Shijie Xia Pengfei Liu LRM 166 166 0 05 Feb 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 338 338 0 22 Jan 2025
WebWalker: Benchmarking LLMs in Web Traversal Jialong Wu Wenbiao Yin Yong Jiang Zhenglin Wang Zekun Xi ... Linhai Zhang Yulan He Deyu Zhou Pengjun Xie Fei Huang 118 14 0 13 Jan 2025
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research Jiajie Jin Yutao Zhu Xinyu Yang Chenghao Zhang Zhicheng Dou Chenghao Zhang Tong Zhao Zhao Yang Zhicheng Dou Ji-Rong Wen VLM 165 72 0 22 May 2024
Reinforcement Learning with Knowledge Representation and Reasoning: A Brief Survey Chao Yu Xuejing Zheng H. Zhuo OffRL LRM 128 8 0 24 Apr 2023