Towards Mixed-Precision Quantization of Neural Networks via Constrained Optimization

13 October 2021

Papers citing "Towards Mixed-Precision Quantization of Neural Networks via Constrained Optimization"

17 / 17 papers shown

Title
Learning from Loss Landscape: Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning Lianbo Ma Jianlun Ma Yuee Zhou Guoyang Xie Qiang He Zhichao Lu MQ 45 0 0 08 May 2025
PROM: Prioritize Reduction of Multiplications Over Lower Bit-Widths for Efficient CNNs Lukas Meiner Jens Mehnert A. P. Condurache MQ 42 0 0 06 May 2025
Radio: Rate-Distortion Optimization for Large Language Model Compression Sean I. Young MQ 21 0 0 05 May 2025
Pack-PTQ: Advancing Post-training Quantization of Neural Networks by Pack-wise Reconstruction Changjun Li Runqing Jiang Zhuo Song Pengpeng Yu Ye Zhang Yulan Guo MQ 56 0 0 01 May 2025
ARQ: A Mixed-Precision Quantization Framework for Accurate and Certifiably Robust DNNs Yuchen Yang Shubham Ugare Yifan Zhao Gagandeep Singh Sasa Misailovic MQ 26 0 0 31 Oct 2024
Foundations of Large Language Model Compression -- Part 1: Weight Quantization Sean I. Young MQ 40 1 0 03 Sep 2024
Automated Heterogeneous Low-Bit Quantization of Multi-Model Deep Learning Inference Pipeline Jayeeta Mondal Swarnava Dey Arijit Mukherjee MQ 16 1 0 10 Nov 2023
PTQD: Accurate Post-Training Quantization for Diffusion Models Yefei He Luping Liu Jing Liu Weijia Wu Hong Zhou Bohan Zhuang DiffM MQ 30 101 0 18 May 2023
High-Speed and Energy-Efficient Non-Binary Computing with Polymorphic Electro-Optic Circuits and Architectures Ishan G. Thakkar Sairam Sri Vatsavai Venkata Sai Praneeth Karempudi 23 1 0 15 Apr 2023
$$\rm A^2Q$: Aggregation-Aware Quantization for Graph Neural Networks$ $\rm A^2Q$ : Aggregation-Aware Quantization for Graph Neural Networks Zeyu Zhu Fanrong Li Zitao Mo Qinghao Hu Gang Li Zejian Liu Xiaoyao Liang Jian Cheng GNN MQ 21 4 0 01 Feb 2023
Efficient and Effective Methods for Mixed Precision Neural Network Quantization for Faster, Energy-efficient Inference Deepika Bablani J. McKinstry S. K. Esser R. Appuswamy D. Modha MQ 20 4 0 30 Jan 2023
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference Hai Wu Ruifei He Hao Hao Tan Xiaojuan Qi Kaibin Huang MQ 21 2 0 10 Dec 2022
Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware Training Yunshan Zhong Gongrui Nan Yu-xin Zhang Fei Chao Rongrong Ji MQ 18 3 0 12 Nov 2022
Mixed-Precision Neural Networks: A Survey M. Rakka M. Fouda Pramod P. Khargonekar Fadi J. Kurdahi MQ 18 11 0 11 Aug 2022
Sharpness-aware Quantization for Deep Neural Networks Jing Liu Jianfei Cai Bohan Zhuang MQ 27 24 0 24 Nov 2021
Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights Aojun Zhou Anbang Yao Yiwen Guo Lin Xu Yurong Chen MQ 316 1,047 0 10 Feb 2017
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation Vijay Badrinarayanan Alex Kendall R. Cipolla SSeg 446 15,637 0 02 Nov 2015