Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations

22 September 2016

Papers citing "Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations"

50 / 529 papers shown

Title
SecONNds: Secure Outsourced Neural Network Inference on ImageNet Shashank Balla 20 0 0 13 Jun 2025
Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane Yinchao Zhang Su Yao Yong Feng Kang Chen Tong Li ... Lexuan Zhang Xiangyu Gao Feng Xiong Qi Li Ke Xu 32 0 0 06 Jun 2025
TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network Guangxin He Yuan Cao Yutong He Tianyi Bai Kun Yuan Binhang Yuan MQ 49 0 0 02 Jun 2025
Smooth Model Compression without Fine-Tuning Christina Runkel Natacha Kuete Meli Jovita Lukasik A. Biguri Carola-Bibiane Schönlieb Michael Moeller 35 0 0 30 May 2025
Bruno: Backpropagation Running Undersampled for Novel device Optimization Luca Fehlings Bojian Zhang P. Gibertini Martin A. Nicholson E. Covi Fernando M. Quintana 22 0 0 23 May 2025
Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis Hong Huang Dapeng Wu 112 0 0 20 May 2025
Morphing-based Compression for Data-centric ML Pipelines Sebastian Baunsgaard Matthias Boehm 36 0 0 15 Apr 2025
MicroNAS: An Automated Framework for Developing a Fall Detection System Seyed Mojtaba Mohasel John Sheppard Lindsey K. Molina Richard R. Neptune Shane R. Wurdeman Corey A. Pew 56 1 0 10 Apr 2025
Text Compression for Efficient Language Generation David Gu Peter Belcak Roger Wattenhofer 106 0 0 14 Mar 2025
Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding Jiajun Li Yixing Xu Haiduo Huang Xuanwu Yin D. Li Edith C. -H. Ngai E. Barsoum 117 0 0 13 Mar 2025
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test Yuhui Li Fangyun Wei Chao Zhang Hongyang R. Zhang 234 18 0 03 Mar 2025
Cauchy-Schwarz Regularizers Sueda Taner Ziyi Wang Christoph Studer 106 0 0 03 Mar 2025
Optimal Brain Apoptosis Mingyuan Sun Zheng Fang Jiaxu Wang Junjie Jiang Delei Kong Chenming Hu Yuetong Fang Renjing Xu AAML 103 0 0 25 Feb 2025
HadamRNN: Binary and Sparse Ternary Orthogonal RNNs Armand Foucault Franck Mamalet François Malgouyres MQ 292 0 0 28 Jan 2025
BILLNET: A Binarized Conv3D-LSTM Network with Logic-gated residual architecture for hardware-efficient video inference Van Thien Nguyen William Guicquero Gilles Sicard 3DV MQ 145 2 0 24 Jan 2025
MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights Van Thien Nguyen William Guicquero Gilles Sicard MQ 155 1 0 17 Jan 2025
Histogram-Equalized Quantization for logic-gated Residual Neural Networks Van Thien Nguyen William Guicquero Gilles Sicard MQ 128 2 0 10 Jan 2025
Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning Zhen Li Yupeng Su Runming Yang C. Xie Zehua Wang Zhongwei Xie Ngai Wong Hongxia Yang MQ LRM 179 4 0 06 Jan 2025
Unsupervised detection of semantic correlations in big data Santiago Acevedo Alex Rodriguez Alessandro Laio 134 3 0 04 Nov 2024
Data Generation for Hardware-Friendly Post-Training Quantization Lior Dikstein Ariel Lapid Arnon Netzer H. Habi MQ 480 0 0 29 Oct 2024
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity Kaidi Wang Jieru Zhao Shuo Yang Wenchao Ding Minyi Guo 58 0 0 28 Oct 2024
MLPerf Power: Benchmarking the Energy Efficiency of Machine Learning Systems from Microwatts to Megawatts for Sustainable AI Arya Tschand Arun Tejusve Raghunath Rajan S. Idgunji Anirban Ghosh J. Holleman ... Rowan Taubitz Sean Zhan Scott Wasson David Kanter Vijay Janapa Reddi 130 3 0 15 Oct 2024
Selective Attention Improves Transformer Yaniv Leviathan Matan Kalman Yossi Matias 119 12 0 03 Oct 2024
MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity Kanghyun Choi Hyeyoon Lee Dain Kwon Sunjong Park Kyuyeun Kim Noseong Park Jinho Lee Jinho Lee MQ 125 2 0 29 Jul 2024
On the Limitations of Compute Thresholds as a Governance Strategy Sara Hooker 119 19 0 08 Jul 2024
An Empirical Investigation of Matrix Factorization Methods for Pre-trained Transformers Ashim Gupta Sina Mahdipour Saravani P. Sadayappan Vivek Srikumar 57 2 0 17 Jun 2024
BOLD: Boolean Logic Deep Learning Van Minh Nguyen Cristian Ocampo Aymen Askri Louis Leconte Ba-Hien Tran AI4CE 110 1 0 25 May 2024
A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models Mahsa Khoshnoodi Vinija Jain Mingye Gao Malavika Srikanth Aman Chadha OffRL 125 5 0 15 May 2024
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems Kailash Gogineni Sai Santosh Dayapule Juan Gómez Luna Karthikeya Gogineni Peng Wei Tian-Shing Lan Mohammad Sadrosadati Onur Mutlu Guru Venkataramani 96 11 0 07 May 2024
Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey Feng Liang Zhen Zhang Haifeng Lu Victor C. M. Leung Yanyi Guo Xiping Hu GNN 103 8 0 09 Apr 2024
EPSD: Early Pruning with Self-Distillation for Efficient Model Compression Dong Chen Ning Liu Yichen Zhu Zhengping Che Rui Ma Fachao Zhang Xiaofeng Mou Yi Chang Jian Tang 62 4 0 31 Jan 2024
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty Yuhui Li Fangyun Wei Chao Zhang Hongyang R. Zhang 150 165 0 26 Jan 2024
Measurement-driven neural-network training for integrated magnetic tunnel junction arrays W. A. Borders A. Madhavan M. Daniels Vasileia Georgiou Martin Lueker-Boden Tiffany S. Santos Patrick M. Braganca M. D. Stiles Jabez J. McClelland Brian D. Hoskins 70 3 0 11 Dec 2023
Experimental Analysis of Large-scale Learnable Vector Storage Compression Hailin Zhang Penghao Zhao Xupeng Miao Yingxia Shao Zirui Liu Tong Yang Tengjiao Wang 79 13 0 27 Nov 2023
Efficient Low-rank Backpropagation for Vision Transformer Adaptation Yuedong Yang Hung-Yueh Chiang Guihong Li Diana Marculescu R. Marculescu 93 9 0 26 Sep 2023
Data-Free Quantization via Mixed-Precision Compensation without Fine-Tuning Jun Chen Shipeng Bai Tianxin Huang Mengmeng Wang Guanzhong Tian Y. Liu MQ 108 19 0 02 Jul 2023
AccMER: Accelerating Multi-Agent Experience Replay with Cache Locality-aware Prioritization Kailash Gogineni Yongsheng Mei Peng Wei Tian-Shing Lan Guru Venkataramani 79 13 0 31 May 2023
Intriguing Properties of Quantization at Scale Arash Ahmadian Saurabh Dash Hongyu Chen Bharat Venkitesh Stephen Gou Phil Blunsom Ahmet Üstün Sara Hooker MQ 121 38 0 30 May 2023
Towards Large-scale Single-shot Millimeter-wave Imaging for Low-cost Security Inspection Liheng Bian Daoyu Li Shuoguang Wang Chun-yuen Teng Huteng Liu Hanwen Xu Xuyang Chang Guoqiang Zhao Shiyong Li Jun Zhang 31 2 0 25 May 2023
A Systematic Literature Review on Hardware Reliability Assessment Methods for Deep Neural Networks Mohammad Hasan Ahmadilivani Mahdi Taheri J. Raik Masoud Daneshtalab M. Jenihhin 89 28 0 09 May 2023
AutoQNN: An End-to-End Framework for Automatically Quantizing Neural Networks Cheng Gong Ye Lu Surong Dai Deng Qian Chenkun Du Tao Li MQ 57 0 0 07 Apr 2023
Architecturing Binarized Neural Networks for Traffic Sign Recognition Andreea Postovan Madalina Erascu 37 4 0 27 Mar 2023
Operating critical machine learning models in resource constrained regimes Raghavendra Selvan Julian Schon Erik Dam MedIm 85 8 0 17 Mar 2023
A Dynamic Multi-Scale Voxel Flow Network for Video Prediction Xiaotao Hu Zhewei Huang Ailin Huang Jun Xu Shuchang Zhou VGen 96 71 0 17 Mar 2023
A Survey on Efficient Training of Transformers Bohan Zhuang Jing Liu Zizheng Pan Haoyu He Yuetian Weng Chunhua Shen 128 49 0 02 Feb 2023
RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of Quantized CNNs A. M. Ribeiro-dos-Santos João Dinis Ferreira O. Mutlu G. Falcão MQ 97 2 0 15 Jan 2023
Efficient On-device Training via Gradient Filtering Yuedong Yang Guihong Li R. Marculescu 100 19 0 01 Jan 2023
Training Integer-Only Deep Recurrent Neural Networks V. Nia Eyyub Sari Vanessa Courville M. Asgharian MQ 93 2 0 22 Dec 2022
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference Hai Wu Ruifei He Hao Hao Tan Xiaojuan Qi Kaibin Huang MQ 79 2 0 10 Dec 2022
QFT: Post-training quantization via fast joint finetuning of all degrees of freedom Alexander Finkelstein Ella Fuchs Idan Tal Mark Grobman Niv Vosco Eldad Meller MQ 74 7 0 05 Dec 2022