F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization

F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization

10 February 2022

Sumant Hanumante

Sergey Tulyakov

Papers citing "F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization"

9 / 9 papers shown

Title
Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization Minsu Kim Seongmin Hong RyeoWook Ko S. Choi Hunjong Lee Junsoo Kim Joo-Young Kim Jongse Park 57 0 0 24 Mar 2025
BOLD: Boolean Logic Deep Learning Van Minh Nguyen Cristian Ocampo Aymen Askri Louis Leconte Ba-Hien Tran AI4CE 40 0 0 25 May 2024
RepQ: Generalizing Quantization-Aware Training for Re-Parametrized Architectures Anastasiia Prutianova Alexey Zaytsev Chung-Kuei Lee Fengyu Sun Ivan Koryakovskiy MQ 13 0 0 09 Nov 2023
Rethinking Vision Transformers for MobileNet Size and Speed Yanyu Li Ju Hu Yang Wen Georgios Evangelidis Kamyar Salahi Yanzhi Wang Sergey Tulyakov Jian Ren ViT 35 159 0 15 Dec 2022
Is Integer Arithmetic Enough for Deep Learning Training? Alireza Ghaffari Marzieh S. Tahaei Mohammadreza Tayaranian M. Asgharian V. Nia MQ 16 16 0 18 Jul 2022
Pruning and Quantization for Deep Neural Network Acceleration: A Survey Tailin Liang C. Glossner Lei Wang Shaobo Shi Xiaotong Zhang MQ 150 675 0 24 Jan 2021
I-BERT: Integer-only BERT Quantization Sehoon Kim A. Gholami Z. Yao Michael W. Mahoney Kurt Keutzer MQ 105 341 0 05 Jan 2021
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand M. Andreetto Hartwig Adam 3DH 950 20,572 0 17 Apr 2017
Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights Aojun Zhou Anbang Yao Yiwen Guo Lin Xu Yurong Chen MQ 337 1,049 0 10 Feb 2017