Pruning and Quantization for Deep Neural Network Acceleration: A Survey

24 January 2021

Papers citing "Pruning and Quantization for Deep Neural Network Acceleration: A Survey"

50 / 202 papers shown

Title
HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models R. Sukthanker Arber Zela B. Staffler Aaron Klein Lennart Purucker Jorg K. H. Franke Frank Hutter ELM 43 3 0 16 May 2024
Localizing Task Information for Improved Model Merging and Compression Ke Wang Nikolaos Dimitriadis Guillermo Ortiz-Jimenez Franccois Fleuret Pascal Frossard MoMe 33 46 0 13 May 2024
Neural Network Compression for Reinforcement Learning Tasks Dmitry A. Ivanov D. Larionov Oleg V. Maslennikov V. Voevodin OffRL AI4CE 48 0 0 13 May 2024
Faster Linear Systems and Matrix Norm Approximation via Multi-level Sketched Preconditioning Michal Dereziñski Christopher Musco Jiaming Yang 42 2 0 09 May 2024
Compressed Latent Replays for Lightweight Continual Learning on Spiking Neural Networks Alberto Dequino Alessio Carpegna D. Nadalini Alessandro Savino Luca Benini S. Di Carlo Francesco Conti 36 2 0 08 May 2024
When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices Peng Zhang Yingjie Liu Yingbo Zhou Xiao Du Xian Wei Ting Wang Mingsong Chen FedML 32 1 0 08 May 2024
Continuous Monitoring for Road Flooding With Satellite Onboard Computing For Navigation for OrbitalAI Φsat-2 challenge Vishesh Vatsal Gouranga Nandi Primo Manilal 24 0 0 05 May 2024
Efficient Compression of Multitask Multilingual Speech Models Thomas Palmeira Ferraz 41 0 0 02 May 2024
EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder Hasanul Mahmud Kevin Desai P. Lama Sushil Prasad 22 0 0 21 Apr 2024
TabConv: Low-Computation CNN Inference via Table Lookups Neelesh Gupta Narayanan Kannan Pengmiao Zhang Viktor Prasanna 45 0 0 08 Apr 2024
Lightweight Deep Learning for Resource-Constrained Environments: A Survey Hou-I Liu Marco Galindo Hongxia Xie Lai-Kuan Wong Hong-Han Shuai Yung-Hui Li Wen-Huang Cheng 58 48 0 08 Apr 2024
Physics-Inspired Deep Learning Anti-Aliasing Framework in Efficient Channel State Feedback Yu-Chien Lin Yan Xin Ta-Sung Lee Charlie Zhang Zhang Zhi Ding 16 1 0 12 Mar 2024
A Survey of Lottery Ticket Hypothesis Bohan Liu Zijie Zhang Peixiong He Zhensen Wang Yang Xiao Ruimeng Ye Yang Zhou Wei-Shinn Ku Bo Hui UQCV 39 12 0 07 Mar 2024
LLM Inference Unveiled: Survey and Roofline Model Insights Zhihang Yuan Yuzhang Shang Yang Zhou Zhen Dong Zhe Zhou ... Yong Jae Lee Yan Yan Beidi Chen Guangyu Sun Kurt Keutzer 42 79 0 26 Feb 2024
EncodingNet: A Novel Encoding-based MAC Design for Efficient Neural Network Acceleration Bo Liu Grace Li Zhang Xunzhao Yin Ulf Schlichtmann Bing Li MQ AI4CE 38 0 0 25 Feb 2024
Shaving Weights with Occam's Razor: Bayesian Sparsification for Neural Networks Using the Marginal Likelihood Rayen Dhahri Alexander Immer Bertrand Charpentier Stephan Günnemann Vincent Fortuin BDL UQCV 29 4 0 25 Feb 2024
Tiny Reinforcement Learning for Quadruped Locomotion using Decision Transformers Orhan Eren Akgün Néstor Cuevas Matheus Farias Daniel Garces 33 0 0 20 Feb 2024
Extraction of nonlinearity in neural networks with Koopman operator Naoki Sugishita Kayo Kinjo Jun Ohkubo 22 1 0 18 Feb 2024
End-to-End Training Induces Information Bottleneck through Layer-Role Differentiation: A Comparative Analysis with Layer-wise Training Keitaro Sakamoto Issei Sato 24 4 0 14 Feb 2024
EERO: Early Exit with Reject Option for Efficient Classification with limited budget Florian Valade Mohamed Hebiri Paul Gay 26 2 0 06 Feb 2024
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning Haoxuan Wang Yuzhang Shang Zhihang Yuan Junyi Wu Yan Yan DiffM MQ 11 28 0 06 Feb 2024
Effect of Weight Quantization on Learning Models by Typical Case Analysis Shuhei Kashiwamura Ayaka Sakata Masaaki Imaizumi MQ 33 1 0 30 Jan 2024
Online Robot Navigation and Manipulation with Distilled Vision-Language Models Kangcheng Liu 21 0 0 30 Jan 2024
Do deep neural networks utilize the weight space efficiently? Onur Can Koyun B. U. Toreyin 16 0 0 26 Jan 2024
Towards Cheaper Inference in Deep Networks with Lower Bit-Width Accumulators Yaniv Blumenfeld Itay Hubara Daniel Soudry 37 3 0 25 Jan 2024
Edge-Enabled Real-time Railway Track Segmentation Chenglin Chen Wang Fei Yang Min Qin Yong Bai Yun 29 1 0 21 Jan 2024
Knowledge Translation: A New Pathway for Model Compression Wujie Sun Defang Chen Jiawei Chen Yan Feng Chun-Yen Chen Can Wang 25 0 0 11 Jan 2024
Fast Inference of Mixture-of-Experts Language Models with Offloading Artyom Eliseev Denis Mazur MoE 19 42 0 28 Dec 2023
Attention, Distillation, and Tabularization: Towards Practical Neural Network-Based Prefetching Pengmiao Zhang Neelesh Gupta Rajgopal Kannan Viktor K. Prasanna 48 0 0 23 Dec 2023
Efficient Verification-Based Face Identification Amit Rozner Barak Battash Ofir Lindenbaum Lior Wolf CVBM 29 2 0 20 Dec 2023
Enhancing Edge Intelligence with Highly Discriminant LNT Features Xinyu Wang Vinod K. Mishra C.-C. Jay Kuo 23 2 0 19 Dec 2023
Optimizing Convolutional Neural Network Architecture Luis Balderas Miguel Lastra José M. Benítez CVBM 20 4 0 17 Dec 2023
Optimizing Dense Feed-Forward Neural Networks Luis Balderas Miguel Lastra José M. Benítez 11 5 0 16 Dec 2023
Solving Dense Linear Systems Faster Than via Preconditioning Michal Dereziñski Jiaming Yang 60 8 0 14 Dec 2023
An End-to-End Network Pruning Pipeline with Sparsity Enforcement Evan Dogariu 11 0 0 04 Dec 2023
Green Edge AI: A Contemporary Survey Yuyi Mao X. Yu Kaibin Huang Ying-Jun Angela Zhang Jun Zhang 36 17 0 01 Dec 2023
RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory Transformer Acceleration Lei Zhao Luca Buonanno Ron M. Roth Sergey Serebryakov Archit Gajjar John Moon Jim Ignowski Giacomo Pedretti 28 3 0 29 Nov 2023
SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions Cyrus Zhou Pedro H. P. Savarese Vaughn Richard Zack Hassman Xin Yuan Michael Maire Michael DiBrino Yanjing Li MQ 21 0 0 23 Nov 2023
ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization Prateek Yadav Leshem Choshen Colin Raffel Mohit Bansal 32 13 0 22 Nov 2023
Physics-Enhanced TinyML for Real-Time Detection of Ground Magnetic Anomalies Talha Siddique Md. Shaad Mahmud AI4CE 27 4 0 19 Nov 2023
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch Le Yu Yu Bowen Haiyang Yu Fei Huang Yongbin Li MoMe 28 272 0 06 Nov 2023
Ultra-Efficient On-Device Object Detection on AI-Integrated Smart Glasses with TinyissimoYOLO Julian Moosmann Pietro Bonazzi Yawei Li Sizhen Bian Philipp Mayer Luca Benini Michele Magno 28 12 0 02 Nov 2023
How a student becomes a teacher: learning and forgetting through Spectral methods Lorenzo Giambagli L. Buffoni Lorenzo Chicchi Duccio Fanelli 19 7 0 19 Oct 2023
Neural Language Model Pruning for Automatic Speech Recognition Leonardo Emili Thiago Fraga-Silva Ernest Pusateri M. Nußbaum-Thom Youssef Oualil 38 1 0 05 Oct 2023
Talking Models: Distill Pre-trained Knowledge to Downstream Models via Interactive Communication Zhe Zhao Qingyun Liu Huan Gui Bang An Lichan Hong Ed H. Chi 23 1 0 04 Oct 2023
Feather: An Elegant Solution to Effective DNN Sparsification Athanasios Glentis Georgoulakis George Retsinas Petros Maragos 26 0 0 03 Oct 2023
Photonic Accelerators for Image Segmentation in Autonomous Driving and Defect Detection Lakshmi Nair David Widemann Brad Turcott Nick Moore Alexandra Wleklinski D. Bunandar Ioannis Papavasileiou Shihu Wang Eric Logan 16 0 0 28 Sep 2023
LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression Ayush Kaushal Tejas Vaidhya Irina Rish 54 15 0 25 Sep 2023
Real-Time Semantic Segmentation: A Brief Survey & Comparative Study in Remote Sensing Clifford Broni-Bediako Junshi Xia Naoto Yokoya 38 9 0 12 Sep 2023
EDAC: Efficient Deployment of Audio Classification Models For COVID-19 Detection Andrej Jovanović Mario Mihaly Lennon Donaldson 36 0 0 11 Sep 2023