EdgeShard: Efficient LLM Inference via Collaborative Edge Computing

EdgeShard: Efficient LLM Inference via Collaborative Edge Computing

23 May 2024

Papers citing "EdgeShard: Efficient LLM Inference via Collaborative Edge Computing"

10 / 10 papers shown

Title
Large Language Model Partitioning for Low-Latency Inference at the Edge Dimitrios Kafetzis Ramin Khalili Iordanis Koutsopoulos 24 0 0 05 May 2025
UserCentrix: An Agentic Memory-augmented AI Framework for Smart Spaces Alaa Saleh Sasu Tarkoma Praveen Kumar Donta Naser Hossein Motlagh Schahram Dustdar Susanna Pirttikangas Lauri Lovén 48 0 0 01 May 2025
Taming the Titans: A Survey of Efficient LLM Inference Serving Ranran Zhen J. Li Yixin Ji Z. Yang Tong Liu Qingrong Xia Xinyu Duan Z. Wang Baoxing Huai M. Zhang LLMAG 77 0 0 28 Apr 2025
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing Cheng Deng Luoyang Sun Jiwen Jiang Yongcheng Zeng Xinjian Wu ... Haoyang Li Lei Chen Lionel M. Ni Hongzhi Zhang Jun Wang 168 0 0 15 Mar 2025
Prompt Inversion Attack against Collaborative Inference of Large Language Models Wenjie Qu Yuguang Zhou Yongji Wu Tingsong Xiao Binhang Yuan Heng Chang Jiaheng Zhang 73 0 0 12 Mar 2025
DeServe: Towards Affordable Offline LLM Inference via Decentralization Linyu Wu Xiaoyuan Liu Tianneng Shi Zhe Ye D. Song OffRL 42 0 0 28 Jan 2025
Towards Edge General Intelligence via Large Language Models: Opportunities and Challenges Handi Chen Weipeng Deng Shuo Yang J. Xu Zhihan Jiang Edith C.H. Ngai Jiangchuan Liu Xue Liu ELM 21 1 0 16 Oct 2024
Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach Yuxuan Chen Rongpeng Li Xiaoxue Yu Zhifeng Zhao Honggang Zhang 42 9 0 03 Jun 2024
EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge Xuan Shen Zhenglun Kong Changdi Yang Zhaoyang Han Lei Lu ... Zhihao Shu Wei Niu Miriam Leeser Pu Zhao Yanzhi Wang MQ 51 18 0 16 Feb 2024
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge Xuan Shen Peiyan Dong Lei Lu Zhenglun Kong Zhengang Li Ming Lin Chao Wu Yanzhi Wang MQ 39 24 0 09 Dec 2023