NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

28 October 2024

Papers citing "NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks"

1 / 1 papers shown

Title
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float Tianyi Zhang Yang Sui Shaochen Zhong V. Chaudhary Xia Hu Anshumali Shrivastava MQ 32 0 0 15 Apr 2025