SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

9 October 2024

Yongqi Li

Wenjie Li

Papers citing "SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration"

5 / 5 papers shown

Title
FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks Zihua Wang Ruibo Li Haozhe Du Joey Tianyi Zhou Yu Zhang Xu Yang MLLM 9 0 0 19 May 2025
MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models Mugilan Ganesan Shri Kiran Srinivasan Ankur Aggarwal Nish Sinnadurai Sean Lie Vithursan Thangarasa VLM 27 0 0 15 May 2025
PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation Zihao An Huajun Bai Ziqiang Liu Dong Li E. Barsoum 61 0 0 23 Apr 2025
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding Hossein Entezari Zarch Lei Gao Chaoyi Jiang Murali Annavaram LRM 31 0 0 08 Apr 2025
Speculative Decoding and Beyond: An In-Depth Survey of Techniques Y. Hu Zining Liu Zhenyuan Dong Tianfan Peng Bradley McDanel S. Zhang 93 0 0 27 Feb 2025