Title
THINK-Bench: Evaluating Thinking Efficiency and Chain-of-Thought Quality of Large Reasoning Models Zhiyuan Li Yi-Ju Chang Yuan Wu LLMAG LRM 7 0 0 28 May 2025
What Makes a Good Reasoning Chain? Uncovering Structural Patterns in Long Chain-of-Thought Reasoning Gangwei Jiang Yahui Liu Zhaoyi Li Qi Wang Fuzheng Zhang Linqi Song Ying Wei Defu Lian LRM 7 0 0 28 May 2025
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning Mingyang Song Mao Zheng OffRL LRM 11 0 0 27 May 2025
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback Minda Hu Tianqing Fang Jianshu Zhang Junyu Ma Zhisong Zhang Jingyan Zhou Hongming Zhang Haitao Mi Dong Yu Irwin King LLMAG LRM 24 0 0 26 May 2025
An Empirical Study on Strong-Weak Model Collaboration for Repo-level Code Generation Shubham Gandhi Atharva Naik Yiqing Xie Carolyn Rose 9 0 0 26 May 2025
Stable Reinforcement Learning for Efficient Reasoning Muzhi Dai Shixuan Liu Qingyi Si OffRL LRM 37 0 0 23 May 2025
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms Mengru Wang Ziwen Xu Shengyu Mao Shumin Deng Zhaopeng Tu Ningyu Zhang N. Zhang LLMSV 38 0 0 23 May 2025
Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems Jiayi Geng Howard Chen Dilip Arumugam Thomas L. Griffiths 49 0 0 23 May 2025
ThinkSwitcher: When to Think Hard, When to Think Fast Guosheng Liang Longguang Zhong Ziyi Yang Xiaojun Quan LRM 35 0 0 20 May 2025
Thinkless: LLM Learns When to Think Gongfan Fang Xinyin Ma Xinchao Wang LLMAG OffRL ReLM LRM 45 1 0 19 May 2025
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 328 8 0 08 May 2025
ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning Jingyang Yi Jiazheng Wang Sida Li ReLM OODD LRM 341 4 0 30 Apr 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Yang Liu Yangqiu Song Duzhen Zhang Zechao Li ... Shengju Yu Xinfeng Li Junfeng Fang Jiaheng Zhang Bryan Hooi LRM 315 7 0 24 Apr 2025
Process Reward Models That Think Muhammad Khalifa Rishabh Agarwal Lajanugen Logeswaran Jaekyeom Kim Hao Peng Moontae Lee Honglak Lee Lu Wang OffRL ALM LRM 61 4 0 23 Apr 2025
Synergizing RAG and Reasoning: A Systematic Review Yunfan Gao Yun Xiong Yijie Zhong Yuxi Bi Ming Xue Haoyu Wang LRM AI4CE 289 3 0 22 Apr 2025
Dynamic Early Exit in Reasoning Models Chenxu Yang Qingyi Si Yongjie Duan Zheliang Zhu Chenyu Zhu Zheng Lin Zheng Lin Li Cao Weiping Wang ReLM LRM 81 14 0 22 Apr 2025
CodeCrash: Stress Testing LLM Reasoning under Structural and Semantic Perturbations Man Ho Lam Chaozheng Wang Jen-tse Huang Michael R. Lyu LRM 53 0 0 19 Apr 2025
Cost-of-Pass: An Economic Framework for Evaluating Language Models Mehmet Hamza Erol Batu El Mirac Suzgun Mert Yuksekgonul J. Zou ELM 49 0 0 17 Apr 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 270 10 0 15 Apr 2025
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? Chenrui Fan Ming Li Lichao Sun Tianyi Zhou LRM 69 9 0 09 Apr 2025
System Log Parsing with Large Language Models: A Review Viktor Beck Max Landauer Markus Wurzenberger Florian Skopik Andreas Rauber 49 0 0 07 Apr 2025
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Ximing Lu Seungju Han David Acuna Hyunwoo Kim Jaehun Jung ... Niklas Muennighoff M. Patwary Mohammad Shoeybi Bryan Catanzaro Yejin Choi ReLM LRM 60 6 0 06 Apr 2025
SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers Yanzheng Xiang Hanqi Yan Shuyin Ouyang Lin Gui Yulan He 76 3 0 31 Mar 2025
Efficient Inference for Large Reasoning Models: A Survey Yi Liu Jiaying Wu Yufei He Hongcheng Gao Hongyu Chen Baolong Bi Jiaheng Zhang Zhiqi Huang Bryan Hooi LLMAG LRM 102 14 0 29 Mar 2025
EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing Yizhang Zhu Runzhi Jiang Boyan Li Nan Tang Yuyu Luo 64 2 0 28 Mar 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 122 35 0 27 Mar 2025
MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection Yibo Yan Shen Wang Jiahao Huo Philip S. Yu Xuming Hu Qingsong Wen 269 7 0 23 Mar 2025
The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement Ruihan Yang Fanghua Ye Jian Li Siyu Yuan Yikai Zhang Zhaopeng Tu Xiaolong Li Deqing Yang LLMAG 137 4 0 20 Mar 2025
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 139 71 0 20 Mar 2025
Policy Frameworks for Transparent Chain-of-Thought Reasoning in Large Language Models Yihang Chen Haikang Deng Kaiqiao Han Qingyue Zhao LRM 94 1 0 14 Mar 2025
MinorBench: A hand-built benchmark for content-based risks for children Shaun Khoo Gabriel Chua Rachel Shong 45 0 0 13 Mar 2025
The Hidden Strength of Disagreement: Unraveling the Consensus-Diversity Tradeoff in Adaptive Multi-Agent Systems Zengqing Wu Takayuki Ito 75 1 0 23 Feb 2025