Context Compression for Auto-regressive Transformers with Sentinel Tokens

12 October 2023

Papers citing "Context Compression for Auto-regressive Transformers with Sentinel Tokens"

9 / 9 papers shown

Title
Selective Attention Improves Transformer Yaniv Leviathan Matan Kalman Yossi Matias 51 9 0 03 Oct 2024
500xCompressor: Generalized Prompt Compression for Large Language Models Zongqian Li Yixuan Su Nigel Collier MQ 40 5 0 06 Aug 2024
Efficient Sparse Attention needs Adaptive Token Release Chaoran Zhang Lixin Zou Dan Luo Min Tang Xiangyang Luo Zihao Li Chenliang Li 49 2 0 02 Jul 2024
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens Weiyao Luo Suncong Zheng Heming Xia Weikang Wang Yan Lei Tianyu Liu Shuang Chen Zhifang Sui 37 1 0 16 Jun 2024
Recurrent Context Compression: Efficiently Expanding the Context Window of LLM Chensen Huang Guibo Zhu Xuepeng Wang Yifei Luo Guojing Ge Haoran Chen Dong Yi Jinqiao Wang 54 1 0 10 Jun 2024
Layer-Condensed KV Cache for Efficient Inference of Large Language Models Haoyi Wu Kewei Tu MQ 49 18 0 17 May 2024
FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference Runheng Liu Xingchen Xiao Heyan Huang Zewen Chi Zhijing Wu RALM KELM 34 0 0 07 May 2024
Learning to Compress Prompt in Natural Language Formats Yu-Neng Chuang Tianwei Xing Chia-Yuan Chang Zirui Liu Xun Chen Xia Hu 36 16 0 28 Feb 2024
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 288 2,017 0 28 Jul 2020