NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention

2 March 2024

Anshumali Shrivastava

Papers citing "NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention"

2 / 2 papers shown

Title
Towards a Middleware for Large Language Models Narcisa Guran Florian Knauf Man Ngo Stefan Petrescu Jan S. Rellermeyer 111 2 0 21 Nov 2024
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective Jinhao Li Jiaming Xu Shan Huang Yonghua Chen Wen Li ... Jiayi Pan Li Ding Hao Zhou Yu Wang Guohao Dai 187 20 0 06 Oct 2024