Token Merging: Your ViT But Faster

17 October 2022

Christoph Feichtenhofer

Judy Hoffman

MoMe

ArXiv PDF HTML

Papers citing "Token Merging: Your ViT But Faster"

50 / 321 papers shown

Title
Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching Zhen Zou Hu Yu Jie Xiao Feng Zhao 45 0 0 10 Mar 2025
ALLVB: All-in-One Long Video Understanding Benchmark Xichen Tan Yuanjing Luo Yunfan Ye Fang Liu Zhiping Cai MLLM VLM 85 0 0 10 Mar 2025
EVE: Towards End-to-End Video Subtitle Extraction with Vision-Language Models Haiyang Yu Jinghui Lu Yanjie Wang Yang Li Hairu Wang Can Huang B. Li VLM 63 1 0 06 Mar 2025
Question-Aware Gaussian Experts for Audio-Visual Question Answering Hongyeob Kim Inyoung Jung Dayoon Suh Youjia Zhang Sangmin Lee Sungeun Hong 61 0 0 06 Mar 2025
ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task Vittorio Pippi Matthieu Guillaumin S. Cascianelli Rita Cucchiara M. Jaritz Loris Bazzani 62 0 0 06 Mar 2025
Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition Mengzhu Li Quanxing Zha Hongjun Wu CVBM 58 0 0 28 Feb 2025
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute Sotiris Anagnostidis Gregor Bachmann Yeongmin Kim Jonas Kohler Markos Georgopoulos A. Sanakoyeu Yuming Du Albert Pumarola Ali K. Thabet Edgar Schönfeld 92 0 0 27 Feb 2025
FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression Jianjian Li Junquan Fan Feng Tang Gang Huang Shitao Zhu Songlin Liu Nian Xie Wulong Liu Yong Liao VLM 43 0 0 22 Feb 2025
Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? Zichen Wen Yifeng Gao Weijia Li Conghui He Linfeng Zhang LRM 63 0 0 17 Feb 2025
Janus: Collaborative Vision Transformer Under Dynamic Network Environment Linyi Jiang Silvery Fu Yifei Zhu Bo Li ViT 167 0 0 14 Feb 2025
A Survey on Mamba Architecture for Vision Applications Fady Ibrahim Guangjun Liu Guanghui Wang Mamba 62 2 0 11 Feb 2025
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference Zhihang Lin Mingbao Lin Luxi Lin Rongrong Ji 55 16 0 28 Jan 2025
iFormer: Integrating ConvNet and Transformer for Mobile Application Chuanyang Zheng ViT 72 0 0 26 Jan 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 89 19 0 21 Jan 2025
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng MLLM VLM 69 25 0 07 Jan 2025
CAT: Content-Adaptive Image Tokenization Junhong Shen Kushal Tirumala Michihiro Yasunaga Ishan Misra Luke Zettlemoyer Lili Yu Chunting Zhou 32 0 0 06 Jan 2025
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance Haicheng Wang Zhemeng Yu Gabriele Spadaro Chen Ju Victor Quétu Enzo Tartaglione Enzo Tartaglione VLM 109 3 0 05 Jan 2025
Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model Omid Saghatchian Atiyeh Gh. Moghadam Ahmad Nickabadi MoMe 43 1 0 03 Jan 2025
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers Yunshan Zhong Yuyao Zhou Yuxin Zhang Shen Li Yong Li Rongrong Ji Zhanpeng Zeng Rongrong Ji MQ 94 0 0 31 Dec 2024
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling Xinhao Li Yi Wang Jiashuo Yu Xiangyu Zeng Yuhan Zhu ... Yinan He Chenting Wang Yu Qiao Yali Wang L. Wang VLM 77 25 0 31 Dec 2024
ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition Seungdong Yoa Seungjun Lee Hyeseung Cho Bumsoo Kim Woohyung Lim ViT 70 0 0 21 Dec 2024
Deploying Foundation Model Powered Agent Services: A Survey Wenchao Xu Jinyu Chen Peirong Zheng Xiaoquan Yi Tianyi Tian ... Quan Wan Yining Qi Yunfeng Fan Qinliang Su Xuemin Shen AI4CE 119 1 0 18 Dec 2024
LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer Yipeng Zhang Yi Liu Zonghao Guo Yidan Zhang Xuesong Yang ... Yuan Yao Zhiyuan Liu Tat-Seng Chua Maosong Sun Maosong Sun MLLM VLM 84 0 0 18 Dec 2024
A Comparative Study of Pruning Methods in Transformer-based Time Series Forecasting Nicholas Kiefer Arvid Weyrauch Muhammed Öz Achim Streit Markus Gotz Charlotte Debus AI4TS 72 0 0 17 Dec 2024
C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness Yu Kang Xianghui Sun Liangyu Chen Wei Zou LRM 80 20 0 16 Dec 2024
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration Wenhao Sun Rong-Cheng Tu Jingyi Liao Zhao Jin Dacheng Tao VGen 99 1 0 16 Dec 2024
Memory Efficient Matting with Adaptive Token Routing Yiheng Lin Yihan Hu Chenyi Zhang Ting Liu Xiaochao Qu Luoqi Liu Yao Zhao Y. X. Wei 68 0 0 14 Dec 2024
Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM Haozhao Wang Yuxiang Nie Yongjie Ye Deng GuanYu Yanjie Wang Shuai Li Haiyang Yu Jinghui Lu Can Huang VLM MLLM 82 1 0 12 Dec 2024
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation Ao Wang Hui Chen Jianchao Tan Kaipeng Zhang Xunliang Cai Zijia Lin J. Han Guiguang Ding VLM 77 3 0 04 Dec 2024
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs Wangbo Zhao Yizeng Han Jiasheng Tang ZeLin Li Yibing Song Kaidi Wang Zhangyang Wang Yang You 83 7 0 04 Dec 2024
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning Yiwu Zhong Zhuoming Liu Yin Li Liwei Wang 82 2 0 04 Dec 2024
Redundant Queries in DETR-Based 3D Detection Methods: Unnecessary and Prunable Lizhen Xu Shanmin Pang Wenzhao Qiu Zehao Wu Xiuxiu Bai K. Mei Jianru Xue 77 1 0 03 Dec 2024
Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion Zhuokun Chen Jinwu Hu Zeshuai Deng Yufeng Wang Bohan Zhuang Mingkui Tan 71 0 0 02 Dec 2024
Token Cropr: Faster ViTs for Quite a Few Tasks Benjamin Bergner C. Lippert Aravindh Mahendran ViT VLM 74 0 0 01 Dec 2024
Training Noise Token Pruning Mingxing Rao Bohan Jiang Daniel Moyer ViT 74 0 0 27 Nov 2024
ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin Linjie Li Difei Gao Z. Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou LLMAG 74 13 0 26 Nov 2024
Efficient Multi-modal Large Language Models via Visual Token Grouping Minbin Huang Runhui Huang Han Shi Yimeng Chen Chuanyang Zheng Xiangguo Sun Xin Jiang Z. Li Hong Cheng VLM 90 3 0 26 Nov 2024
Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy Te Yang Jian Jia Xiangyu Zhu Weisong Zhao Bo Wang ... Shengyuan Liu Quan Chen Peng Jiang Kun Gai Zhen Lei 64 1 0 23 Nov 2024
freePruner: A Training-free Approach for Large Multimodal Model Acceleration Bingxin Xu Yuzhang Shang Yunhao Ge Qian Lou Yan Yan 97 3 0 23 Nov 2024
Efficient Online Inference of Vision Transformers by Training-Free Tokenization Leonidas Gee Wing Yan Li V. Sharmanska Novi Quadrianto ViT 88 0 0 23 Nov 2024
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim 112 3 0 22 Nov 2024
Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding Yiming Zhang Zhuokai Zhao Zhaorun Chen Zenghui Ding Xianjun Yang Yining Sun 207 1 0 21 Nov 2024
Principles of Visual Tokens for Efficient Video Understanding Xinyue Hao Gen Li Shreyank N. Gowda Robert B Fisher Jonathan Huang Anurag Arnab Laura Sevilla-Lara 98 0 0 20 Nov 2024
Don't Look Twice: Faster Video Transformers with Run-Length Tokenization Rohan Choudhury Guanglei Zhu Sihan Liu Koichiro Niinuma Kris M. Kitani László A. Jeni 26 10 0 07 Nov 2024
DiT4Edit: Diffusion Transformer for Image Editing Kunyu Feng Y. Ma Bingyuan Wang Chenyang Qi Haozhe Chen Qifeng Chen Zeyu Wang 37 16 0 05 Nov 2024
Adaptive Length Image Tokenization via Recurrent Allocation Shivam Duggal Phillip Isola Antonio Torralba William T. Freeman VLM 37 5 0 04 Nov 2024
Video Token Merging for Long-form Video Understanding Seon-Ho Lee Jue Wang Zhikang Zhang D. Fan Xinyu Li 45 5 0 31 Oct 2024
TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation Sunjae Yoon Gwanhyeong Koo Younghwan Lee Chang D. Yoo VGen 74 3 0 31 Oct 2024
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction Long Xing Qidong Huang Xiaoyi Dong Jiajie Lu Pan Zhang ... Yuhang Cao Conghui He Jiaqi Wang Feng Wu Dahua Lin VLM 48 26 0 22 Oct 2024
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs Michael S Ryoo Honglu Zhou Shrikant B. Kendre Can Qin Le Xue Manli Shu Silvio Savarese Ran Xu Caiming Xiong Juan Carlos Niebles VGen 38 13 0 21 Oct 2024