What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

31 October 2024

Papers citing "What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective"

2 / 2 papers shown

Title
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning Xinghao Chen Zhijing Sun Wenjin Guo Miaoran Zhang Yanjun Chen ... Hui Su Yijie Pan Dietrich Klakow Wenjie Li Xiaoyu Shen LRM 111 8 0 25 Feb 2025
When More is Less: Understanding Chain-of-Thought Length in LLMs Yuyang Wu Yifei Wang Tianqi Du Stefanie Jegelka Yisen Wang Yisen Wang LRM 129 39 0 11 Feb 2025