Which Tokens to Use? Investigating Token Reduction in Vision Transformers

9 August 2023

Joakim Bruslund Haurum

Papers citing "Which Tokens to Use? Investigating Token Reduction in Vision Transformers"

29 / 29 papers shown

Title
Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance Taehan Lee Hyukjun Lee ViT VLM 37 0 0 02 Apr 2025
Efficient Token Compression for Vision Transformer with Spatial Information Preserved Junzhu Mao Yang Shen Jinyang Guo Yazhou Yao Xiansheng Hua ViT 36 0 0 30 Mar 2025
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers Yunshan Zhong Yuyao Zhou Yuxin Zhang Shen Li Yong Li Rongrong Ji Zhanpeng Zeng Rongrong Ji MQ 94 0 0 31 Dec 2024
Deploying Foundation Model Powered Agent Services: A Survey Wenchao Xu Jinyu Chen Peirong Zheng Xiaoquan Yi Tianyi Tian ... Quan Wan Yining Qi Yunfeng Fan Qinliang Su Xuemin Shen AI4CE 119 1 0 18 Dec 2024
Token Cropr: Faster ViTs for Quite a Few Tasks Benjamin Bergner C. Lippert Aravindh Mahendran ViT VLM 74 0 0 01 Dec 2024
Training Noise Token Pruning Mingxing Rao Bohan Jiang Daniel Moyer ViT 74 0 0 27 Nov 2024
freePruner: A Training-free Approach for Large Multimodal Model Acceleration Bingxin Xu Yuzhang Shang Yunhao Ge Qian Lou Yan Yan 97 3 0 23 Nov 2024
Frontiers in Intelligent Colonoscopy Ge-Peng Ji Jingyi Liu Peng-Tao Xu Nick Barnes F. Khan Salman Khan Deng-Ping Fan 46 4 0 22 Oct 2024
Plug-and-Play Performance Estimation for LLM Services without Relying on Labeled Data Can Wang Dianbo Sui Hongliang Sun Hao Ding Bolin Zhang Zhiying Tu 29 0 0 10 Oct 2024
Agglomerative Token Clustering Joakim Bruslund Haurum Sergio Escalera Graham W. Taylor T. Moeslund 39 1 0 18 Sep 2024
Token Turing Machines are Efficient Vision Models Purvish Jajal Nick Eliopoulos Benjamin Shiue-Hal Chou George K. Thiravathukal James C. Davis Yung-Hsiang Lu 98 0 0 11 Sep 2024
Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer Shuai Peng Di Fu Baole Wei Yong Cao Liangcai Gao Zhi Tang ViT 45 1 0 30 Aug 2024
Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge Nick Eliopoulos Purvish Jajal James Davis Gaowen Liu George K. Thiravathukal Yung-Hsiang Lu 43 1 0 01 Jul 2024
ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers Narges Norouzi Svetlana Orlova Daan de Geus Gijs Dubbelman ViT FedML 48 4 0 14 Jun 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 63 32 0 07 Jun 2024
Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model Haogeng Liu Quanzeng You Xiaotian Han Yongfei Liu Huaibo Huang Ran He Hongxia Yang 33 2 0 28 May 2024
Matryoshka Multimodal Models Mu Cai Jianwei Yang Jianfeng Gao Yong Jae Lee VLM 50 25 0 27 May 2024
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference Ting Liu Xuyang Liu Liangtao Shi Zunnan Xu Siteng Huang Yi Xin Quanjun Yin 43 5 0 23 May 2024
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs Woomin Song Seunghyuk Oh Sangwoo Mo Jaehyung Kim Sukmin Yun Jung-Woo Ha Jinwoo Shin 30 14 0 16 Apr 2024
The Need for Speed: Pruning Transformers with One Recipe Samir Khaki Konstantinos N. Plataniotis 32 10 0 26 Mar 2024
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification Pingping Zhang Yuhao Wang Yang Liu Zhengzheng Tu Huchuan Lu 23 21 0 15 Mar 2024
Conditional computation in neural networks: principles and research trends Simone Scardapane Alessandro Baiocchi Alessio Devoto V. Marsocci Pasquale Minervini Jary Pomponi 34 1 0 12 Mar 2024
Subobject-level Image Tokenization Delong Chen Samuel Cahyawijaya Jianfeng Liu Baoyuan Wang Pascale Fung VLM OCL 54 7 0 22 Feb 2024
Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference Bartosz Wójcik Alessio Devoto Karol Pustelnik Pasquale Minervini Simone Scardapane 23 5 0 15 Dec 2023
Make A Long Image Short: Adaptive Token Length for Vision Transformers Yuqin Zhu Yichen Zhu ViT 72 17 0 05 Jul 2023
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 189 499 0 22 Feb 2022
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Huayu Chen Boqing Gong ViT 248 577 0 22 Apr 2021
Centroid Transformers: Learning to Abstract with Attention Lemeng Wu Xingchao Liu Qiang Liu 3DPC 61 28 0 17 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 296 39,198 0 01 Sep 2014