An Efficient Sparse Inference Software Accelerator for Transformer-based
Language Models on CPUs

An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs

28 June 2023

Moshe Wasserblat

Papers citing "An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs"

2 / 2 papers shown

Title
Model Compression and Efficient Inference for Large Language Models: A Survey Wenxiao Wang Wei Chen Yicong Luo Yongliu Long Zhengkai Lin Liye Zhang Binbin Lin Deng Cai Xiaofei He MQ 41 48 0 15 Feb 2024
I-BERT: Integer-only BERT Quantization Sehoon Kim A. Gholami Z. Yao Michael W. Mahoney Kurt Keutzer MQ 107 344 0 05 Jan 2021