When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

v1v2v3v4 (latest)

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

27 July 2025

ArXiv (abs)PDF HTML HuggingFace (22 upvotes)

Papers citing "When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios"

8 / 8 papers shown

Title
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models Keda Tao Kele Shao Bohan Yu Weiqiang Wang Jian Liu Huan Wang VLM 169 0 0 18 Nov 2025
Striking the Right Balance between Compute and Copy: Improving LLM Inferencing Under Speculative Decoding Arun Ramachandran Ramaswamy Govindarajan M. Annavaram Prakash Raghavendra Hossein Entezari Zarch Lei Gao Chaoyi Jiang 36 0 0 15 Nov 2025
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models Wenhao Zhou Hao Zheng R. Zhao MLLM VLM LRM 98 0 0 14 Nov 2025
StreamingTOM: Streaming Token Compression for Efficient Video Understanding Xueyi Chen Keda Tao Kele Shao Huan Wang 108 1 0 21 Oct 2025
VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs Jiaying Zhu Yurui Zhu Xin Lu Wenrui Yan Dong Li Kunlin Liu Xueyang Fu Zheng-Jun Zha MQ VLM 183 0 0 18 Oct 2025
VideoNSA: Native Sparse Attention Scales Video Understanding Enxin Song Wenhao Chai Shusheng Yang Ethan Armand Xiaojun Shan Haiyang Xu Jianwen Xie Zhuowen Tu 80 1 0 02 Oct 2025
Revisiting MLLM Token Technology through the Lens of Classical Visual Coding Jinming Liu Junyan Lin Yuntao Wei Kele Shao Keda Tao Jianguo Huang Xudong Yang Zhibo Chen Huan Wang Xin Jin MLLM 97 3 0 19 Aug 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 766 39 0 15 Apr 2025