Title
PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression Lizhe Chen Binjia Zhou Yuyao Ge Jiayi Chen Shiguang NI 160 1 0 23 Apr 2025
Efficient Pretraining Length Scaling Bohong Wu Shen Yan Sijun Zhang Jianqiao Lu Yutao Zeng Ya Wang Xun Zhou 156 0 0 21 Apr 2025
Saliency-driven Dynamic Token Pruning for Large Language Models Yao Tao Yehui Tang Yun Wang Mingjian Zhu Hailin Hu Yunhe Wang 36 0 0 06 Apr 2025
Cost-Optimal Grouped-Query Attention for Long-Context Modeling Yuxiao Chen Yutong Wu Chenyang Song Zhiyuan Liu Maosong Sun Xu Han Zhiyuan Liu Maosong Sun 69 0 0 12 Mar 2025
Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation Sha Li Naren Ramakrishnan RALM KELM 154 1 0 18 Feb 2025
DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens Shaoshen Chen Yangning Li Zishan Xu Hai-Tao Zheng Xin Su Zifei Shan Hai-Tao Zheng 53 0 0 17 Feb 2025
Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification Yubo Wang Haoyang Li Fei Teng Lei Chen 91 1 0 17 Feb 2025
Lost in the Passage: Passage-level In-context Learning Does Not Necessarily Need a "Passage" Hao Sun Chenming Tang Gengyang Li Yunfang Wu AIMat 47 0 0 15 Feb 2025
On Memory Construction and Retrieval for Personalized Conversational Agents Zhuoshi Pan Qianhui Wu Huiqiang Jiang Xufang Luo Hao Cheng ... Yuqing Yang Chin-Yew Lin H. V. Zhao Lili Qiu Jianfeng Gao RALM 61 3 0 08 Feb 2025
Vision-centric Token Compression in Large Language Model Ling Xing Alex Jinpeng Wang Rui Yan Xiangbo Shu Jinhui Tang VLM 62 0 0 02 Feb 2025
Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference Weizhi Fei Xueyan Niu Guoqing Xie Yingqing Liu Bo Bai Wei Han 33 1 0 22 Jan 2025
From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression Eunseong Choi Sunkyung Lee Minjin Choi June Park Jongwuk Lee 65 1 0 03 Jan 2025
No Free Lunch: Retrieval-Augmented Generation Undermines Fairness in LLMs, Even for Vigilant Users Mengxuan Hu Hongyi Wu Zihan Guan Ronghang Zhu Dongliang Guo Daiqing Qi Sheng Li SILM 38 3 0 10 Oct 2024
The Compressor-Retriever Architecture for Language Model OS Yuan Yang Siheng Xiong Ehsan Shareghi Faramarz Fekri RALM KELM 32 1 0 02 Sep 2024
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models Yuzhang Tian Jianbo Zhao Haoyu Dong Junyu Xiong Shiyu Xia ... Yun Lin José Cambronero Yeye He Shi Han Dongmei Zhang LMTD 43 6 0 12 Jul 2024
Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models Jinliang Lu Ziliang Pang Min Xiao Yaochen Zhu Rui Xia Jiajun Zhang MoMe 52 18 0 08 Jul 2024
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches Jiayi Yuan Hongyi Liu Shaochen Zhong Yu-Neng Chuang ... Hongye Jin V. Chaudhary Zhaozhuo Xu Zirui Liu Xia Hu 46 18 0 01 Jul 2024
Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities Zhonghao Li Xuming Hu Aiwei Liu Kening Zheng S. Huang Hui Xiong RALM 115 8 0 17 Jun 2024
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression Huiqiang Jiang Qianhui Wu Xufang Luo Dongsheng Li Chin-Yew Lin Yuqing Yang Lili Qiu RALM 121 186 0 10 Oct 2023
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading Howard Chen Ramakanth Pasunuru Jason Weston Asli Celikyilmaz RALM 68 72 0 08 Oct 2023