R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

27 May 2025

Papers citing "R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing"

29 / 29 papers shown

Title
PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs Tengxuan Liu Shiyao Li Jiayi Yang Tianchen Zhao Feng Zhou Xiaohui Song Guohao Dai Shengen Yan Huazhong Yang Yu Wang MQ 23 1 0 24 May 2025
SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training Jintao Zhang Jia Wei Pengle Zhang Xiaoming Xu Haofeng Huang Haoxu Wang Kai Jiang Jun Zhu Jianfei Chen MQ 49 10 0 16 May 2025
SplitReason: Learning To Offload Reasoning Yash Akhauri Anthony Fei Chi-chih Chang Ahmed F. AbouElhamayed Yueying Li Mohamed S. Abdelfattah OffRL ReLM LRM 83 1 0 23 Apr 2025
Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time Wang Yang Xiang Yue Vipin Chaudhary Xiaotian Han ReLM LRM 104 7 0 12 Apr 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 160 42 0 27 Mar 2025
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 176 84 0 20 Mar 2025
Predicting Team Performance from Communications in Simulated Search-and-Rescue Ali Jalal-Kamali Nikolos Gurney David Pynadath AI4TS 165 0 0 05 Mar 2025
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test Yuhui Li Fangyun Wei Chao Zhang Hongyang R. Zhang 176 14 0 03 Mar 2025
Chain of Draft: Thinking Faster by Writing Less Silei Xu Wenhao Xie Lingxiao Zhao Pengcheng He AI4TS LRM 145 74 0 25 Feb 2025
MoBA: Mixture of Block Attention for Long-Context LLMs Enzhe Lu Z. L. Jiang Qingbin Liu Yulun Du Tao Jiang ... N. Zhang Zhilin Yang Xinyu Zhou Mingxing Zhang J. Qiu 74 24 0 18 Feb 2025
MixLLM: Dynamic Routing in Mixed Large Language Models Xinyuan Wang Yanchi Liu Wei Cheng Xujiang Zhao Zhe Chen Wenchao Yu Yanjie Fu Haifeng Chen 107 5 0 09 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 367 1,643 0 22 Jan 2025
GraphRouter: A Graph-based Router for LLM Selections Tao Feng Yanzhen Shen Jiaxuan You 129 20 0 04 Oct 2024
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration Jintao Zhang Jia Wei Pengle Zhang Jun-Jie Zhu Jun Zhu Jianfei Chen VLM MQ 137 31 0 03 Oct 2024
RouteLLM: Learning to Route LLMs with Preference Data Isaac Ong Amjad Almahairi Vincent Wu Wei-Lin Chiang Tianhao Wu Joseph E. Gonzalez M. W. Kadous Ion Stoica 110 92 0 26 Jun 2024
EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees Yuhui Li Fangyun Wei Chao Zhang Hongyang R. Zhang 130 75 0 24 Jun 2024
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression Tianyu Fu Haofeng Huang Xuefei Ning Genghan Zhang Boju Chen ... Shiyao Li Shengen Yan Guohao Dai Huazhong Yang Yu Wang MQ 89 20 0 21 Jun 2024
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data Huajian Xin Daya Guo Zhihong Shao Zhaochun Ren Qihao Zhu Bo Liu Chong Ruan Wenda Li Xiaodan Liang SyDa 81 84 0 23 May 2024
A Survey on Efficient Inference for Large Language Models Zixuan Zhou Xuefei Ning Ke Hong Tianyu Fu Jiaming Xu ... Shengen Yan Guohao Dai Xiao-Ping Zhang Yuhan Dong Yu Wang 121 96 0 22 Apr 2024
Evaluating Quantized Large Language Models Shiyao Li Xuefei Ning Luning Wang Tengxuan Liu Xiangsheng Shi Shengen Yan Guohao Dai Huazhong Yang Yu Wang MQ 66 52 0 28 Feb 2024
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty Yuhui Li Fangyun Wei Chao Zhang Hongyang R. Zhang 103 155 0 26 Jan 2024
Mixtral of Experts Albert Q. Jiang Alexandre Sablayrolles Antoine Roux A. Mensch Blanche Savary ... Théophile Gervet Thibaut Lavril Thomas Wang Timothée Lacroix William El Sayed MoE LLMAG 151 1,083 0 08 Jan 2024
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models Keming Lu Hongyi Yuan Runji Lin Junyang Lin Zheng Yuan Chang Zhou Jingren Zhou MoE LRM 72 60 0 15 Nov 2023
Efficient Streaming Language Models with Attention Sinks Michel Lang Yuandong Tian Beidi Chen Song Han Mike Lewis AI4TS RALM 119 750 0 29 Sep 2023
Efficient Memory Management for Large Language Model Serving with PagedAttention Woosuk Kwon Zhuohan Li Siyuan Zhuang Ying Sheng Lianmin Zheng Cody Hao Yu Joseph E. Gonzalez Haotong Zhang Ion Stoica VLM 166 2,197 0 12 Sep 2023
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan Song Han EDL MQ 90 550 0 01 Jun 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 178 1,145 0 31 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.4K 14,313 0 15 Mar 2023
OPT: Open Pre-trained Transformer Language Models Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen ... Daniel Simig Punit Singh Koura Anjali Sridhar Tianlu Wang Luke Zettlemoyer VLM OSLM AI4CE 327 3,655 0 02 May 2022