Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference

2 February 2025

Papers citing "Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference"

1 / 1 papers shown

Title
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float Tianyi Zhang Yang Sui Shaochen Zhong Vipin Chaudhary Helen Zhou Anshumali Shrivastava MQ 63 2 0 15 Apr 2025