ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs

13 March 2025

Papers citing "ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs"

4 / 4 papers shown

Title
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling Zefan Cai Yichi Zhang Bofei Gao Yuliang Liu Yongqian Li ... Wayne Xiong Yue Dong Baobao Chang Junjie Hu Wen Xiao 95 92 0 04 Jun 2024
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models Anthony Sarah S. N. Sridhar Maciej Szankin Sairam Sundaresan 68 5 0 28 May 2024
H $_2$ O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models Zhenyu Zhang Ying Sheng Dinesh Manocha Tianlong Chen Lianmin Zheng ... Yuandong Tian Christopher Ré Clark W. Barrett Zhangyang Wang Beidi Chen VLM 103 275 0 24 Jun 2023
Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned Elena Voita David Talbot F. Moiseev Rico Sennrich Ivan Titov 76 1,120 0 23 May 2019