Efficient LLM Inference on CPUs

1 November 2023

Papers citing "Efficient LLM Inference on CPUs"

4 / 4 papers shown

Title
PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System Yintao He Haiyu Mao Christina Giannoula Mohammad Sadrosadati Juan Gómez Luna Huawei Li Xiaowei Li Ying Wang O. Mutlu 50 6 0 21 Feb 2025
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective Jinhao Li Jiaming Xu Shan Huang Yonghua Chen Wen Li ... Jiayi Pan Li Ding Hao Zhou Yu Wang Guohao Dai 68 17 0 06 Oct 2024
Towards Enabling FAIR Dataspaces Using Large Language Models Benedikt T. Arnold Johannes Theissen-Lipp D. Collarana Christoph Lange Sandra Geisler Edward Curry Stefan Decker 36 1 0 18 Mar 2024
FP8 Formats for Deep Learning Paulius Micikevicius Dusan Stosic N. Burgess Marius Cornea Pradeep Dubey ... Naveen Mellempudi S. Oberman Mohammad Shoeybi Michael Siu Hao Wu BDL VLM MQ 77 126 0 12 Sep 2022