Title
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 91 19 0 27 Mar 2025
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation Zhicheng Lee S. Cao Jinxin Liu Jie Zhang Weichuan Liu Xiaoyin Che Lei Hou Juanzi Li ReLM LRM 97 2 0 27 Mar 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 73 61 0 26 Mar 2025
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging Han Wu Yuxuan Yao Shuqi Liu Zehua Liu Xiaojin Fu Xiongwei Han Xianrui Li Hui-Ling Zhen Tao Zhong Mingxuan Yuan MoMe LRM 80 10 0 26 Mar 2025
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking Yuyao Ge Shenghua Liu Yansen Wang Lingrui Mei Lizhe Chen Baolong Bi Xueqi Cheng ReLM LRM 49 3 0 25 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 91 50 0 24 Mar 2025
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities Weixiang Zhao Xingyu Sui Jiahe Guo Yulin Hu Yang Deng Yanyan Zhao Bing Qin Wanxiang Che Tat-Seng Chua Ting Liu ELM LRM 69 5 0 23 Mar 2025
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language Kun-Mo Chu Xufeng Zhao C. Weber Stefan Wermter LLMAG LM&Ro 59 1 0 21 Mar 2025
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 86 40 0 20 Mar 2025
Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation Yijia Luo Yulin Song Xingyao Zhang Jiaheng Liu Weixun Wang Gengru Chen Wenbo Su Bo Zheng LRM 66 5 0 20 Mar 2025
$ϕ$ -Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation Fangzhi Xu Hang Yan Chang Ma Haiteng Zhao Jun Liu Qika Lin Zhiyong Wu 58 2 0 17 Mar 2025
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning Yuxiao Qu Matthew Y. R. Yang Amrith Rajagopal Setlur Lewis Tunstall E. Beeching Ruslan Salakhutdinov Aviral Kumar OffRL 70 20 0 10 Mar 2025
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models Yuchen Yan Yongliang Shen Yuhang Liu Jin Jiang Hao Fei Jian Shao Yueting Zhuang LRM ReLM 55 4 0 09 Mar 2025
Alignment for Efficient Tool Calling of Large Language Models Hongshen Xu Zihan Wang Zichen Zhu Lei Pan Xingyu Chen Lu Chen Kai Yu 51 0 0 09 Mar 2025
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models? Kun Xiang Zhili Liu Zihao Jiang Yunshuang Nie Kaixin Cai ... Yu-Jie Yuan Jiawei Han Lanqing Hong Hang Xu Xiaodan Liang ReLM LRM 67 7 0 08 Mar 2025
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models Yi Shen Jingyang Zhang Jieyun Huang Shuming Shi Wenjing Zhang Jiangze Yan Rongjia Du Ning Wang Kai Wang LRM 80 29 0 06 Mar 2025
An Empirical Study on Eliciting and Improving R1-like Reasoning Models Z. Chen Yingqian Min Beichen Zhang Jie Chen Jinhao Jiang ... Xu Miao Yaojie Lu Lei Fang Zhongyuan Wang Zhicheng Dou ReLM OffRL LRM 83 20 0 06 Mar 2025
Adding Alignment Control to Language Models Wenhong Zhu Weinan Zhang Rui Wang 60 0 0 06 Mar 2025
Towards Widening The Distillation Bottleneck for Reasoning Models Huifeng Yin Yu Zhao Mingyang Wu Xuanfan Ni Bo Zeng ... Liangying Shao Chenyang Lyu Longyue Wang Weihua Luo Kaifu Zhang LRM 42 2 0 03 Mar 2025
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding Yishuo Wang Pei Zhang Siyuan Huang Baosong Yang Zizhuo Zhang Fei Huang Rui Wang BDL LRM 69 8 0 03 Mar 2025
ProBench: Benchmarking Large Language Models in Competitive Programming Lei Yang Renren Jin Ling Shi Jianxiang Peng Yue Chen Deyi Xiong ReLM ELM LRM 61 2 0 28 Feb 2025
Self-Training Elicits Concise Reasoning in Large Language Models Tergel Munkhbat Namgyu Ho S. Kim Yongjin Yang Yujin Kim Se-Young Yun ReLM LRM 69 16 0 27 Feb 2025
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? Yancheng He Shilong Li Jing Liu Weixun Wang Xingyuan Bu ... Zhongyuan Peng Zhenru Zhang Zhicheng Zheng Wenbo Su Bo Zheng ELM LRM 86 9 0 26 Feb 2025
Chain of Draft: Thinking Faster by Writing Less Silei Xu Wenhao Xie Lingxiao Zhao Pengcheng He AI4TS LRM 75 42 0 25 Feb 2025
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning Wenkai Yang Shuming Ma Yankai Lin Furu Wei LRM 53 25 0 25 Feb 2025
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer Marthe Ballon Andres Algaba Vincent Ginis LRM ReLM 44 7 0 24 Feb 2025
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning Guijin Son Jiwoo Hong Hyunwoo Ko James Thorne LRM 58 8 0 24 Feb 2025
DISC: Dynamic Decomposition Improves LLM Inference Scaling Jonathan Light Wei Cheng Wu Yue Masafumi Oyamada Mengdi Wang Santiago Paternain Haifeng Chen ReLM LRM 66 2 0 23 Feb 2025
S $^2$ R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning Ruotian Ma Peisong Wang Cheng Liu Xingyan Liu Jiaqi Chen Bang Zhang Xin Zhou Nan Du Jia Li LRM 67 2 0 18 Feb 2025
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? Zhiyuan Zeng Qinyuan Cheng Zhangyue Yin Yunhua Zhou Xipeng Qiu LRM 80 13 0 17 Feb 2025
Dyve: Thinking Fast and Slow for Dynamic Process Verification Qiang Xu Zhiyu Li Zhijian Xu Xiangyu Wen Qiang Xu LRM 43 3 0 16 Feb 2025
CoT-Valve: Length-Compressible Chain-of-Thought Tuning Xinyin Ma Guangnian Wan Runpeng Yu Gongfan Fang Xinchao Wang LRM 86 28 0 13 Feb 2025
When More is Less: Understanding Chain-of-Thought Length in LLMs Yuyang Wu Yifei Wang Tianqi Du Stefanie Jegelka Yisen Wang LRM 56 26 0 11 Feb 2025
Dynamic Chain-of-Thought: Towards Adaptive Deep Reasoning Libo Wang LRM 222 1 0 07 Feb 2025
OverThink: Slowdown Attacks on Reasoning LLMs A. Kumar Jaechul Roh A. Naseh Marzena Karpinska Mohit Iyyer Amir Houmansadr Eugene Bagdasarian LRM 66 17 0 04 Feb 2025
Policy Guided Tree Search for Enhanced LLM Reasoning Yang Li LRM 56 0 0 04 Feb 2025
GuardReasoner: Towards Reasoning-based LLM Safeguards Yue Liu Hongcheng Gao Shengfang Zhai Jun Xia Tianyi Wu Zhiwei Xue Yuxiao Chen Kenji Kawaguchi Jiaheng Zhang Bryan Hooi AI4TS LRM 136 16 0 30 Jan 2025
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning Haotian Luo Li Shen Haiying He Yishuo Wang Shiwei Liu Wei Li Naiqiang Tan Xiaochun Cao Dacheng Tao VLM LRM 92 53 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zhilin Yang Zhiqi Huang Zihao Huang Ziyao Xu Zheng Yang VLM ALM OffRL AI4TS LRM 120 167 0 22 Jan 2025