PuMer: Pruning and Merging Tokens for Efficient Vision Language Models

PuMer: Pruning and Merging Tokens for Efficient Vision Language Models

27 May 2023

Bhargavi Paranjape

Hannaneh Hajishirzi

ArXiv (abs)PDF HTML

Papers citing "PuMer: Pruning and Merging Tokens for Efficient Vision Language Models"

9 / 9 papers shown

Title
Efficient Online Inference of Vision Transformers by Training-Free Tokenization Leonidas Gee Wing Yan Li V. Sharmanska Novi Quadrianto ViT 207 0 0 01 Jul 2025
Video, How Do Your Tokens Merge? Sam Pollard Michael Wray ViT MoMe 78 0 0 04 Jun 2025
One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory Chenhao Zheng Jieyu Zhang Mohammadreza Salehi Ziqi Gao Vishnu Iyengar Norimasa Kobori Quan Kong Ranjay Krishna 51 0 0 29 May 2025
Dynamic Pyramid Network for Efficient Multimodal Large Language Model Hao Ai Kunyi Wang Zezhou Wang H. Lu Jin Tian Yaxin Luo Peng-Fei Xing Jen-Yuan Huang Huaxia Li Gen Luo MLLM VLM 175 0 0 26 Mar 2025
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction Long Xing Qidong Huang Xiaoyi Dong Jiajie Lu Pan Zhang ... Yuhang Cao Zeang Sheng Jiaqi Wang Feng Wu Dahua Lin VLM 133 46 0 22 Oct 2024
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models Fushuo Huo Wenchao Xu Zhong Zhang Yining Qi Zhicheng Chen Peilin Zhao VLM MLLM 212 31 0 04 Aug 2024
Mobile Edge Intelligence for Large Language Models: A Contemporary Survey Guanqiao Qu Qiyuan Chen Wei Wei Zheng Lin Xianhao Chen Kaibin Huang 182 56 0 09 Jul 2024
PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference Tanvir Mahmud Burhaneddin Yaman Chun-Hao Liu Diana Marculescu 111 3 0 24 Mar 2024
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models Zekun Wang Jingchang Chen Wangchunshu Zhou Haichao Zhu Jiafeng Liang Liping Shan Ming Liu Dongliang Xu Qing Yang Bing Qin VLM 102 5 0 24 May 2023