Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models

27 May 2025

Papers citing "Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models"

21 / 21 papers shown

Title
Learning Lie Group Generators from Trajectories Lifan Hu 96 8 0 04 Apr 2025
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning Bairu Hou Yang Zhang Jiabao Ji Yujian Liu Kaizhi Qian Jacob Andreas Shiyu Chang OffRL LRM 80 20 0 02 Apr 2025
Z1: Efficient Test-time Scaling with Code Zhaojian Yu Yinghao Wu Yilun Zhao Arman Cohan Xiao-Ping Zhang LRM 64 11 0 01 Apr 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 124 35 0 27 Mar 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 107 108 0 26 Mar 2025
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 143 71 0 20 Mar 2025
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning Yuxiao Qu Matthew Y. R. Yang Amrith Rajagopal Setlur Lewis Tunstall E. Beeching Ruslan Salakhutdinov Aviral Kumar OffRL 110 28 0 10 Mar 2025
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models Yi Shen Jing Zhang Jieyun Huang Shuming Shi Wenjing Zhang Jiangze Yan Rongjia Du Ning Wang Kai Wang Shiguo Lian LRM 96 42 0 06 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 118 60 0 03 Mar 2025
Demystifying Long Chain-of-Thought Reasoning in LLMs Edward Yeo Yuxuan Tong Morry Niu Graham Neubig Xiang Yue OffRL LRM 117 107 0 05 Feb 2025
LIMO: Less is More for Reasoning Yixin Ye Zhen Huang Yang Xiao Ethan Chern Shijie Xia Pengfei Liu LRM 98 132 0 05 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 254 1,503 0 22 Jan 2025
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning Haotian Luo Li Shen Haiying He Yun Wang Shiwei Liu Wei Li Naiqiang Tan Xiaochun Cao Dacheng Tao VLM LRM 120 77 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 192 250 0 22 Jan 2025
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though Violet Xiang Charlie Snell Kanishk Gandhi Alon Albalak Anikait Singh ... Dakota Mahan Louis Castricato Jan-Philipp Fränken Nick Haber Chelsea Finn LRM 62 42 0 08 Jan 2025
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Bradley Brown Jordan Juravsky Ryan Ehrlich Ronald Clark Quoc V. Le Christopher Ré Azalia Mirhoseini ALM LRM 169 278 0 03 Jan 2025
ProcessBench: Identifying Process Errors in Mathematical Reasoning Chujie Zheng Zizhuo Zhang Beichen Zhang Runji Lin Keming Lu Bowen Yu Dayiheng Liu Jingren Zhou Junyang Lin LRM 144 63 0 09 Dec 2024
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning Amrith Rajagopal Setlur Chirag Nagpal Adam Fisch Xinyang Geng Jacob Eisenstein Rishabh Agarwal Alekh Agarwal Jonathan Berant Aviral Kumar OffRL LRM 69 56 0 10 Oct 2024
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Charlie Snell Jaehoon Lee Kelvin Xu Aviral Kumar LRM 108 576 0 06 Aug 2024
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 598 9,009 0 28 Jan 2022
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 245 18,685 0 20 Jul 2017