INT-FlashAttention: Enabling Flash Attention for INT8 Quantization

25 September 2024

Tong Yang

Papers citing "INT-FlashAttention: Enabling Flash Attention for INT8 Quantization"

1 / 1 papers shown

Title
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache Rishabh Tiwari Haocheng Xi Aditya Tomar Coleman Hooper Sehoon Kim Maxwell Horton Mahyar Najibi Michael W. Mahoney Kemal Kurniawan Amir Gholami MQ 58 1 0 05 Feb 2025