Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

15 December 2017

Papers citing "Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference"

50 / 1,298 papers shown

Title
Dynamic Slimmable Network Changlin Li Guangrun Wang Bing Wang Xiaodan Liang Zhihui Li Xiaojun Chang 91 145 0 24 Mar 2021
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures Sushant Singh A. Mahmood AI4TS 120 96 0 23 Mar 2021
ReCU: Reviving the Dead Weights in Binary Neural Networks Zihan Xu Mingbao Lin Jianzhuang Liu Jie Chen Ling Shao Yue Gao Yonghong Tian Rongrong Ji MQ 84 84 0 23 Mar 2021
n-hot: Efficient bit-level sparsity for powers-of-two neural network quantization Yuiko Sakuma Hiroshi Sumihiro Jun Nishikawa Toshiki Nakamura Ryoji Ikegaya MQ 83 1 0 22 Mar 2021
Toward Compact Deep Neural Networks via Energy-Aware Pruning Seul-Ki Yeom Kyung-Hwan Shim Jee-Hyun Hwang CVBM 63 13 0 19 Mar 2021
Learned Gradient Compression for Distributed Deep Learning L. Abrahamyan Yiming Chen Giannis Bekoulis Nikos Deligiannis 106 46 0 16 Mar 2021
Learnable Companding Quantization for Accurate Low-bit Neural Networks Kohei Yamamoto MQ 95 68 0 12 Mar 2021
Quantization-Guided Training for Compact TinyML Models Sedigh Ghamari Koray Ozcan Thu Dinh A. Melnikov Juan Carvajal Jan Ernst S. Chai MQ 65 18 0 10 Mar 2021
unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights Generation Stylianos I. Venieris Javier Fernandez-Marques Nicholas D. Lane 49 11 0 09 Mar 2021
Reliability-Aware Quantization for Anti-Aging NPUs Sami Salamin Georgios Zervakis Ourania Spantidi Iraklis Anagnostopoulos J. Henkel H. Amrouch 25 13 0 08 Mar 2021
Compiler Toolchains for Deep Learning Workloads on Embedded Platforms Max Sponner Bernd Waschneck Akash Kumar MQ 41 5 0 08 Mar 2021
Split Computing and Early Exiting for Deep Learning Applications: Survey and Research Challenges Yoshitomo Matsubara Marco Levorato Francesco Restuccia 133 215 0 08 Mar 2021
COIN: COmpression with Implicit Neural representations Emilien Dupont Adam Goliñski Milad Alizadeh Yee Whye Teh Arnaud Doucet 108 228 0 03 Mar 2021
Efficient Deep Image Denoising via Class Specific Convolution Lu Xu Jiawei Zhang Xuanye Cheng Feng Zhang Xing Wei Jimmy S. J. Ren 67 15 0 02 Mar 2021
SWIS -- Shared Weight bIt Sparsity for Efficient Neural Network Acceleration Shurui Li W. Romaszkan A. Graening Puneet Gupta MQ 33 1 0 01 Mar 2021
A Little Energy Goes a Long Way: Build an Energy-Efficient, Accurate Spiking Neural Network from Convolutional Neural Network Dengyu Wu Xinping Yi Xiaowei Huang 85 16 0 01 Mar 2021
Efficient Soft-Error Detection for Low-precision Deep Learning Recommendation Models Sihuan Li Jianyu Huang P. T. P. Tang D. Khudia Jongsoo Park H. Dixit Zizhong Chen 50 13 0 27 Feb 2021
Low-Precision Reinforcement Learning: Running Soft Actor-Critic in Half Precision Johan Bjorck Xiangyu Chen Christopher De Sa Carla P. Gomes Kilian Q. Weinberger 135 6 0 26 Feb 2021
FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with Quantization-Aware Training and Adaptive Parallelism Jenny Yang Seongmin Hong Joo-Young Kim 61 18 0 24 Feb 2021
Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference B. Hawks Javier Mauricio Duarte Nicholas J. Fraser Alessandro Pappalardo N. Tran Yaman Umuroglu MQ 79 51 0 22 Feb 2021
On the Effects of Quantisation on Model Uncertainty in Bayesian Neural Networks Martin Ferianc Partha P. Maji Matthew Mattina Miguel R. D. Rodrigues UQCV BDL 77 10 0 22 Feb 2021
Targeted Attack against Deep Neural Networks via Flipping Limited Weight Bits Jiawang Bai Baoyuan Wu Yong Zhang Yiming Li Zhifeng Li Shutao Xia AAML 101 75 0 21 Feb 2021
BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization Huanrui Yang Lin Duan Yiran Chen Hai Helen Li MQ 83 65 0 20 Feb 2021
An Information-Theoretic Justification for Model Pruning Berivan Isik Tsachy Weissman Albert No 164 37 0 16 Feb 2021
A Survey of Machine Learning for Computer Architecture and Systems Nan Wu Yuan Xie AI4TS AI4CE 108 153 0 16 Feb 2021
Neural Network Compression for Noisy Storage Devices Berivan Isik Kristy Choi Xin-Yang Zheng Tsachy Weissman Stefano Ermon H. P. Wong Armin Alaghi 70 13 0 15 Feb 2021
Confounding Tradeoffs for Neural Network Quantization Sahaj Garg Anirudh Jain Joe Lou Mitchell Nahmias MQ 76 19 0 12 Feb 2021
Dynamic Precision Analog Computing for Neural Networks Sahaj Garg Joe Lou Anirudh Jain Mitchell Nahmias 75 33 0 12 Feb 2021
Robustness in Compressed Neural Networks for Object Detection Sebastian Cygert A. Czyżewski 165 8 0 10 Feb 2021
Attention-Based Neural Networks for Chroma Intra Prediction in Video Coding Marc Górriz Blanch Saverio G. Blasi Alan F. Smeaton Noel E. O'Connor M. Mrak 40 15 0 09 Feb 2021
Distribution Adaptive INT8 Quantization for Training CNNs Kang Zhao Sida Huang Pan Pan Yinghan Li Yingya Zhang Zhenyu Gu Yinghui Xu MQ 114 68 0 09 Feb 2021
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch Aojun Zhou Yukun Ma Junnan Zhu Jianbo Liu Zhijie Zhang Kun Yuan Wenxiu Sun Hongsheng Li 223 250 0 08 Feb 2021
Real-time Denoising and Dereverberation with Tiny Recurrent U-Net Hyeong-Seok Choi Sungjin Park Jie Hwan Lee Hoon Heo Dongsuk Jeon Kyogu Lee 97 57 0 05 Feb 2021
EFloat: Entropy-coded Floating Point Format for Compressing Vector Embedding Models R. Bordawekar B. Abali Ming-Hung Chen MQ 45 3 0 04 Feb 2021
Fixed-point Quantization of Convolutional Neural Networks for Quantized Inference on Embedded Platforms Rishabh Goyal Joaquin Vanschoren V. V. Acht S. Nijssen MQ 66 23 0 03 Feb 2021
Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators Hamzah Abdel-Aziz Ali Shafiee J. Shin A. Pedram Joseph Hassoun MQ 72 11 0 27 Jan 2021
AdderNet and its Minimalist Hardware Design for Energy-Efficient Artificial Intelligence Yunhe Wang Mingqiang Huang Kai Han Hanting Chen Wei Zhang Chunjing Xu Dacheng Tao 107 36 0 25 Jan 2021
Pruning and Quantization for Deep Neural Network Acceleration: A Survey Tailin Liang C. Glossner Lei Wang Shaobo Shi Xiaotong Zhang MQ 252 710 0 24 Jan 2021
Distilling Large Language Models into Tiny and Effective Students using pQRNN P. Kaliamoorthi Aditya Siddhant Edward Li Melvin Johnson MQ 60 17 0 21 Jan 2021
Generative Zero-shot Network Quantization Xiangyu He Qinghao Hu Peisong Wang Jian Cheng GAN MQ 114 23 0 21 Jan 2021
Accelerating Deep Learning Inference via Learned Caches Arjun Balasubramanian Adarsh Kumar Yuhan Liu Han Cao Shivaram Venkataraman Aditya Akella 64 19 0 18 Jan 2021
KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization Jing Jin Cai Liang Tiancheng Wu Li Zou Zhiliang Gan MQ 59 27 0 15 Jan 2021
On the quantization of recurrent neural networks Jian Li R. Álvarez MQ 68 11 0 14 Jan 2021
Fast convolutional neural networks on FPGAs with hls4ml T. Aarrestad Vladimir Loncar Nicolò Ghielmetti M. Pierini S. Summers ... N. Tran Miaoyuan Liu E. Kreinar Zhenbin Wu Duc Hoang 90 110 0 13 Jan 2021
FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference D. Khudia Jianyu Huang Protonu Basu Summer Deng Haixin Liu Jongsoo Park M. Smelyanskiy FedML MQ 124 47 0 13 Jan 2021
Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices G. Cerutti Renzo Andri Lukas Cavigelli Michele Magno Elisabetta Farella Luca Benini MQ 79 39 0 12 Jan 2021
Attention-based Convolutional Autoencoders for 3D-Variational Data Assimilation Julian Mack Rossella Arcucci Miguel Molina-Solana Yi-Ke Guo 3DPC 86 35 0 06 Jan 2021
I-BERT: Integer-only BERT Quantization Sehoon Kim A. Gholami Z. Yao Michael W. Mahoney Kurt Keutzer MQ 179 354 0 05 Jan 2021
SpotPatch: Parameter-Efficient Transfer Learning for Mobile Object Detection Keren Ye Adriana Kovashka Mark Sandler Menglong Zhu Andrew G. Howard Marco Fornoni AAML MQ 74 7 0 04 Jan 2021
Improving Adversarial Robustness in Weight-quantized Neural Networks Chang Song Elias Fallon Hai Helen Li AAML 61 19 0 29 Dec 2020