v1v2v3 (latest)

HAQ: Hardware-Aware Automated Quantization with Mixed Precision

21 November 2018

Zhijian Liu

Song Han

Papers citing "HAQ: Hardware-Aware Automated Quantization with Mixed Precision"

50 / 436 papers shown

Title
$$\rm A^2Q$: Aggregation-Aware Quantization for Graph Neural Networks$ $\rm A^2Q$ : Aggregation-Aware Quantization for Graph Neural Networks Zeyu Zhu Fanrong Li Zitao Mo Qinghao Hu Gang Li Zejian Liu Xiaoyao Liang Jian Cheng GNN MQ 82 4 0 01 Feb 2023
Efficient and Effective Methods for Mixed Precision Neural Network Quantization for Faster, Energy-efficient Inference Deepika Bablani J. McKinstry S. K. Esser R. Appuswamy D. Modha MQ 66 4 0 30 Jan 2023
Does Federated Learning Really Need Backpropagation? Hao Feng Tianyu Pang Chao Du Wei Chen Shuicheng Yan Min Lin FedML 85 11 0 28 Jan 2023
Tailor: Altering Skip Connections for Resource-Efficient Inference Olivia Weng Gabriel Marcano Vladimir Loncar Alireza Khodamoradi Nojan Sheybani Andres Meza F. Koushanfar K. Denolf Javier Mauricio Duarte Ryan Kastner 99 13 0 18 Jan 2023
Hyperspherical Quantization: Toward Smaller and More Accurate Models Dan Liu X. Chen Chen Ma Xue Liu MQ 63 3 0 24 Dec 2022
Hyperspherical Loss-Aware Ternary Quantization Dan Liu Xue Liu MQ 65 0 0 24 Dec 2022
Automatic Network Adaptation for Ultra-Low Uniform-Precision Quantization Seongmin Park Beomseok Kwon Jieun Lim Kyuyoung Sim Taeho Kim Jungwook Choi MQ 64 1 0 21 Dec 2022
CSMPQ:Class Separability Based Mixed-Precision Quantization Ming-Yu Wang Taisong Jin Miaohui Zhang Zhengtao Yu MQ 69 0 0 20 Dec 2022
RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers Zhikai Li Junrui Xiao Lianwei Yang Qingyi Gu MQ 84 90 0 16 Dec 2022
NAWQ-SR: A Hybrid-Precision NPU Engine for Efficient On-Device Super-Resolution Stylianos I. Venieris Mario Almeida Royson Lee Nicholas D. Lane SupR 65 4 0 15 Dec 2022
Towards Hardware-Specific Automatic Compression of Neural Networks Torben Krieger Bernhard Klein Holger Fröning MQ 63 2 0 15 Dec 2022
PD-Quant: Post-Training Quantization based on Prediction Difference Metric Jiawei Liu Lin Niu Zhihang Yuan Dawei Yang Xinggang Wang Wenyu Liu MQ 185 71 0 14 Dec 2022
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference Hai Wu Ruifei He Hao Hao Tan Xiaojuan Qi Kaibin Huang MQ 79 2 0 10 Dec 2022
CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level Continuous Sparsification Lirui Xiao Huanrui Yang Zhen Dong Kurt Keutzer Li Du Shanghang Zhang MQ 73 10 0 06 Dec 2022
Make RepVGG Greater Again: A Quantization-aware Approach Xiangxiang Chu Liang Li Bo Zhang MQ 136 51 0 03 Dec 2022
Boosted Dynamic Neural Networks Haichao Yu Haoxiang Li G. Hua Gao Huang Humphrey Shi 103 8 0 30 Nov 2022
Class-based Quantization for Neural Networks Wenhao Sun Grace Li Zhang Huaxi Gu Bing Li Ulf Schlichtmann MQ 67 7 0 27 Nov 2022
MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision Transformer with Heterogeneous Attention Wenyuan Zeng Meng Li Wenjie Xiong Tong Tong Wen-jie Lu Jin Tan Runsheng Wang Ru Huang 93 23 0 25 Nov 2022
NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera Localization Shitao Tang Sicong Tang Andrea Tagliasacchi Ping Tan Yasutaka Furukawa 3DPC 57 17 0 21 Nov 2022
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models Guangxuan Xiao Ji Lin Mickael Seznec Hao Wu Julien Demouth Song Han MQ 255 844 0 18 Nov 2022
Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models Zhekai Zhang Ji Lin Chenlin Meng Stefano Ermon Song Han Jun-Yan Zhu DiffM 138 49 0 03 Nov 2022
QuaLA-MiniLM: a Quantized Length Adaptive MiniLM Shira Guskin Moshe Wasserblat Chang Wang Haihao Shen MQ 74 2 0 31 Oct 2022
MinUn: Accurate ML Inference on Microcontrollers Shikhar Jaiswal R. Goli Aayan Kumar Vivek Seshadri Rahul Sharma 88 3 0 29 Oct 2022
Fast DistilBERT on CPUs Haihao Shen Ofir Zafrir Bo Dong Hengyu Meng Xinyu. Ye Zhe Wang Yi Ding Hanwen Chang Guy Boudoukh Moshe Wasserblat VLM 60 2 0 27 Oct 2022
Zero-Shot Learning of a Conditional Generative Adversarial Network for Data-Free Network Quantization Yoojin Choi Mostafa El-Khamy Jungwon Lee GAN 49 1 0 26 Oct 2022
Approximating Continuous Convolutions for Deep Network Compression Theo W. Costain V. Prisacariu 66 0 0 17 Oct 2022
ODG-Q: Robust Quantization via Online Domain Generalization Chaofan Tao Ngai Wong MQ 91 1 0 17 Oct 2022
FIT: A Metric for Model Sensitivity Ben Zandonati Adrian Alan Pol M. Pierini Olya Sirkin Tal Kopetz MQ 81 8 0 16 Oct 2022
Deep learning model compression using network sensitivity and gradients M. Sakthi N. Yadla Raj Pawate 51 2 0 11 Oct 2022
Energy-Efficient Deployment of Machine Learning Workloads on Neuromorphic Hardware Peyton S. Chandarana Mohammadreza Mohammadi J. Seekings Ramtin Zand 75 6 0 10 Oct 2022
In-situ Model Downloading to Realize Versatile Edge AI in 6G Mobile Networks Kaibin Huang Hai Wu Zhiyan Liu Xiaojuan Qi 65 10 0 07 Oct 2022
Efficient Quantized Sparse Matrix Operations on Tensor Cores Shigang Li Kazuki Osawa Torsten Hoefler 160 32 0 14 Sep 2022
Human Activity Recognition on Microcontrollers with Quantized and Adaptive Deep Neural Networks Francesco Daghero Luca Bompani Chen Xie Marco Castellano Luca Gandolfi A. Calimera Enrico Macii Massimo Poncino Daniele Jahier Pagliari BDL HAI 63 24 0 02 Sep 2022
ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization Cong Guo Chen Zhang Jingwen Leng Zihan Liu Fan Yang Yun-Bo Liu Minyi Guo Yuhao Zhu MQ 88 60 0 30 Aug 2022
SONAR: Joint Architecture and System Optimization Search Elias Jääsaari Michelle Ma Ameet Talwalkar Tianqi Chen 66 1 0 25 Aug 2022
Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning Elias Frantar Sidak Pal Singh Dan Alistarh MQ 144 245 0 24 Aug 2022
Design Automation for Fast, Lightweight, and Effective Deep Learning Models: A Survey Dalin Zhang Kaixuan Chen Yan Zhao B. Yang Li-Ping Yao Christian S. Jensen 118 3 0 22 Aug 2022
Combining Gradients and Probabilities for Heterogeneous Approximation of Neural Networks E. Trommer Bernd Waschneck Akash Kumar 50 6 0 15 Aug 2022
Mixed-Precision Neural Networks: A Survey M. Rakka M. Fouda Pramod P. Khargonekar Fadi J. Kurdahi MQ 96 13 0 11 Aug 2022
Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization Zechao Li Mengshu Sun Alec Lu Haoyu Ma Geng Yuan ... Yanyu Li M. Leeser Zhangyang Wang Xue Lin Zhenman Fang ViT MQ 67 54 0 10 Aug 2022
Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA Cecilia Latotzke Tim Ciesielski T. Gemmeke MQ 41 8 0 09 Aug 2022
Quantized Sparse Weight Decomposition for Neural Network Compression Andrey Kuzmin M. V. Baalen Markus Nagel Arash Behboodi MQ 60 3 0 22 Jul 2022
CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution Chee Hong Sungyong Baik Heewon Kim Seungjun Nah Kyoung Mu Lee SupR MQ 112 32 0 21 Jul 2022
Bitwidth-Adaptive Quantization-Aware Neural Network Training: A Meta-Learning Approach Jiseok Youn Jaehun Song Hyung-Sin Kim S. Bahk MQ 61 8 0 20 Jul 2022
Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss Daning Cheng Wenguang Chen MQ 63 0 0 20 Jul 2022
Learnable Mixed-precision and Dimension Reduction Co-design for Low-storage Activation Yu-Shan Tai Cheng-Yang Chang Chieh-Fang Teng AnYeu A. Wu 80 5 0 16 Jul 2022
STI: Turbocharge NLP Inference at the Edge via Elastic Pipelining Liwei Guo Wonkyo Choe F. Lin 67 15 0 11 Jul 2022
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks Yongming Rao Zuyan Liu Wenliang Zhao Jie Zhou Jiwen Lu ViT 86 38 0 04 Jul 2022
I-ViT: Integer-only Quantization for Efficient Vision Transformer Inference Zhikai Li Qingyi Gu MQ 135 106 0 04 Jul 2022
On-Device Training Under 256KB Memory Ji Lin Ligeng Zhu Wei-Ming Chen Wei-Chen Wang Chuang Gan Song Han MQ 144 212 0 30 Jun 2022