Alternating Multi-bit Quantization for Recurrent Neural Networks

1 February 2018

Papers citing "Alternating Multi-bit Quantization for Recurrent Neural Networks"

33 / 33 papers shown

Title
HadamRNN: Binary and Sparse Ternary Orthogonal RNNs Armand Foucault Franck Mamalet François Malgouyres MQ 87 0 0 28 Jan 2025
ARB-LLM: Alternating Refined Binarizations for Large Language Models Zhiteng Li Xinyu Yan Tianao Zhang Haotong Qin Dong Xie Jiang Tian Zhongchao Shi Linghe Kong Yulun Zhang Xiaokang Yang MQ 37 2 0 04 Oct 2024
Embedding Compression for Text Classification Using Dictionary Screening Jing Zhou Xinru Jing Mu Liu Hansheng Wang 29 0 0 23 Nov 2022
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models S. Kwon Jeonghoon Kim Jeongin Bae Kang Min Yoo Jin-Hwa Kim Baeseong Park Byeongwook Kim Jung-Woo Ha Nako Sung Dongsoo Lee MQ 38 30 0 08 Oct 2022
QReg: On Regularization Effects of Quantization Mohammadhossein Askarihemmat Reyhane Askari Hemmat Alexander Hoffman Ivan Lazarevich Ehsan Saboori Olivier Mastropietro Sudhakar Sah Yvon Savaria J. David MQ 44 5 0 24 Jun 2022
What Do Compressed Multilingual Machine Translation Models Forget? Alireza Mohammadshahi Vassilina Nikoulina Alexandre Berard Caroline Brun James Henderson Laurent Besacier AI4CE 46 9 0 22 May 2022
Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference G. Paulin Francesco Conti Lukas Cavigelli Luca Benini 29 8 0 14 Feb 2022
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition Junhao Xu Shoukang Hu Jianwei Yu Xunying Liu Helen M. Meng MQ 45 15 0 29 Nov 2021
Low-bit Quantization of Recurrent Neural Network Language Models Using Alternating Direction Methods of Multipliers Junhao Xu Xie Chen Shoukang Hu Jianwei Yu Xunying Liu Helen Meng MQ 30 9 0 29 Nov 2021
Demystifying and Generalizing BinaryConnect Abhishek Sharma Yaoliang Yu Eyyub Sari Mahdi Zolnouri V. Nia MQ 22 8 0 25 Oct 2021
Understanding and Overcoming the Challenges of Efficient Transformer Quantization Yelysei Bondarenko Markus Nagel Tijmen Blankevoort MQ 25 133 0 27 Sep 2021
4-bit Quantization of LSTM-based Speech Recognition Models A. Fasoli Chia-Yu Chen Mauricio Serrano Xiao Sun Naigang Wang ... Xiaodong Cui Brian Kingsbury Wei Zhang Zoltán Tüske K. Gopalakrishnan MQ 26 21 0 27 Aug 2021
Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-Temporal Sparsity Chang Gao T. Delbruck Shih-Chii Liu 23 44 0 04 Aug 2021
Compression of Deep Learning Models for Text: A Survey Manish Gupta Puneet Agrawal VLM MedIm AI4CE 22 115 0 12 Aug 2020
BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based Quantized DNNs Yongkweon Jeon Baeseong Park S. Kwon Byeongwook Kim Jeongin Yun Dongsoo Lee MQ 33 30 0 20 May 2020
MuBiNN: Multi-Level Binarized Recurrent Neural Network for EEG signal Classification Seyed Ahmad Mirsalari Sima Sinaei M. Salehi Masoud Daneshtalab MQ 16 5 0 19 Apr 2020
Towards Efficient Training for Neural Network Quantization Qing Jin Linjie Yang Zhenyu A. Liao MQ 21 42 0 21 Dec 2019
Adaptive Loss-aware Quantization for Multi-bit Networks Zhongnan Qu Zimu Zhou Yun Cheng Lothar Thiele MQ 36 53 0 18 Dec 2019
3D-aCortex: An Ultra-Compact Energy-Efficient Neurocomputing Platform Based on Commercial 3D-NAND Flash Memories Mohammad Bavandpour Shubham Sahay M. Mahmoodi D. Strukov 24 29 0 07 Aug 2019
Recurrent Neural Networks: An Embedded Computing Perspective Nesma M. Rezk M. Purnaprajna Tomas Nordstrom Z. Ul-Abdin 45 81 0 23 Jul 2019
Multi-Precision Quantized Neural Networks via Encoding Decomposition of -1 and +1 Qigong Sun Fanhua Shang Kan Yang Xiufang Li Yan Ren L. Jiao MQ 46 12 0 31 May 2019
Structured Compression by Weight Encryption for Unstructured Pruning and Quantization S. Kwon Dongsoo Lee Byeongwook Kim Parichay Kapoor Baeseong Park Gu-Yeon Wei MQ 35 48 0 24 May 2019
AutoQ: Automated Kernel-Wise Neural Network Quantization Qian Lou Feng Guo Lantao Liu Minje Kim Lei Jiang MQ 27 97 0 15 Feb 2019
Dataflow-based Joint Quantization of Weights and Activations for Deep Neural Networks Xue Geng Jie Fu Bin Zhao Jie Lin M. Aly C. Pal V. Chandrasekhar MQ 24 5 0 04 Jan 2019
ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network Sachin Mehta Mohammad Rastegari Linda G. Shapiro Hannaneh Hajishirzi VLM 29 393 0 28 Nov 2018
Learning to Skip Ineffectual Recurrent Computations in LSTMs A. Ardakani Zhengyun Ji W. Gross 13 16 0 09 Nov 2018
ProxQuant: Quantized Neural Networks via Proximal Operators Yu Bai Yu Wang Edo Liberty MQ 13 117 0 01 Oct 2018
Learning Recurrent Binary/Ternary Weights A. Ardakani Zhengyun Ji S. C. Smithson B. Meyer W. Gross MQ 19 27 0 28 Sep 2018
Pyramidal Recurrent Unit for Language Modeling Sachin Mehta Rik Koncel-Kedziorski Mohammad Rastegari Hannaneh Hajishirzi 21 10 0 27 Aug 2018
A Survey on Methods and Theories of Quantized Neural Networks Yunhui Guo MQ 34 232 0 13 Aug 2018
FINN-L: Library Extensions and Design Trade-off Analysis for Variable Precision LSTM Networks on FPGAs Vladimir Rybalkin Alessandro Pappalardo M. M. Ghaffar Giulio Gambardella Norbert Wehn Michaela Blott 19 72 0 11 Jul 2018
Retraining-Based Iterative Weight Quantization for Deep Neural Networks Dongsoo Lee Byeongwook Kim MQ 36 16 0 29 May 2018
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Zhehuai Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 718 6,750 0 26 Sep 2016