Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?

16 April 2025

Papers citing "Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?"

8 / 8 papers shown

Title
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence Guiyang Hou Xing Gao Yuchuan Wu Xiang Huang Wenqi Zhang ... Yongliang Shen Jialu Du Fei Huang Yongbin Li Weiming Lu 45 0 0 30 May 2025
Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling Fanzeng Xia Yidong Luo Tinko Sebastian Bartels Yaqi Xu Tongxin Li ReLM LRM 84 0 0 28 May 2025
PATS: Process-Level Adaptive Thinking Mode Switching Yi Wang Junxiao Liu Shimao Zhang Jiajun Chen Shujian Huang LRM 52 0 0 25 May 2025
Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning Minwu Kim Anubhav Shrestha Safal Shrestha Aadim Nepal Keith Ross 71 0 0 20 May 2025
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation Berkcan Kapusuzoglu Supriyo Chakraborty Chia-Hsuan Lee Sambit Sahu 121 0 0 16 May 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 186 111 0 03 Mar 2025
LIMO: Less is More for Reasoning Yixin Ye Zhen Huang Yang Xiao Ethan Chern Shijie Xia Pengfei Liu LRM 177 166 0 05 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 390 2,024 0 22 Jan 2025