v1v2 (latest)

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

3 June 2021

Wenliang Zhao

Jie Zhou

ArXiv (abs)PDF HTML Github (608★)

Papers citing "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification"

50 / 444 papers shown

Title
Lightweight Deep Learning for Resource-Constrained Environments: A Survey Hou-I Liu Marco Galindo Hongxia Xie Lai-Kuan Wong Hong-Han Shuai Yung-Hui Li Wen-Huang Cheng 130 65 0 08 Apr 2024
Scene Adaptive Sparse Transformer for Event-based Object Detection Yansong Peng Hebei Li Yueyi Zhang Xiaoyan Sun Feng Wu ViT 111 18 0 02 Apr 2024
Learning to Rank Patches for Unbiased Image Redundancy Reduction Yang Luo Zhineng Chen Peng Zhou Zuxuan Wu Xieping Gao Yu-Gang Jiang SSL 74 4 0 31 Mar 2024
A General and Efficient Training for Transformer via Token Expansion Wenxuan Huang Yunhang Shen Jiao Xie Baochang Zhang Gaoqi He Ke Li Xing Sun Shaohui Lin 106 3 0 31 Mar 2024
Efficient Modulation for Vision Networks Xu Ma Xiyang Dai Jianwei Yang Bin Xiao Yinpeng Chen Yun Fu Lu Yuan 109 19 0 29 Mar 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam Amirhossein Kazerouni Ilker Hacihaliloglu Dorit Merhof 92 7 0 28 Mar 2024
Dense Vision Transformer Compression with Few Samples Hanxiao Zhang Yifan Zhou Guo-Hua Wang Jianxin Wu ViT VLM 84 4 0 27 Mar 2024
Transformers-based architectures for stroke segmentation: A review Yalda Zafari-Ghadim Essam A. Rashed M. Mabrok MedIm 64 2 0 27 Mar 2024
Homogeneous Tokenizer Matters: Homogeneous Visual Tokenizer for Remote Sensing Image Understanding Run Shao Zhaoyang Zhang Chao Tao Yunsheng Zhang Chengli Peng Haifeng Li VLM 81 6 0 27 Mar 2024
The Need for Speed: Pruning Transformers with One Recipe Samir Khaki Konstantinos N. Plataniotis 93 10 0 26 Mar 2024
PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference Tanvir Mahmud Burhaneddin Yaman Chun-Hao Liu Diana Marculescu 99 3 0 24 Mar 2024
Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression Hancheng Ye Chong Yu Peng Ye Renqiu Xia Yansong Tang Jiwen Lu Tao Chen Bo Zhang 88 3 0 23 Mar 2024
Accelerating ViT Inference on FPGA through Static and Dynamic Pruning Dhruv Parikh Shouyi Li Bingyi Zhang Rajgopal Kannan Carl E. Busart Viktor Prasanna 82 2 0 21 Mar 2024
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim MoMe ViT 109 16 0 20 Mar 2024
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation Wangbo Zhao Jiasheng Tang Yizeng Han Yibing Song Kai Wang Gao Huang F. Wang Yang You 125 12 0 18 Mar 2024
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification Pingping Zhang Yuhao Wang Yang Liu Zhengzheng Tu Huchuan Lu 89 25 0 15 Mar 2024
Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim ViT 71 10 0 15 Mar 2024
OneVOS: Unifying Video Object Segmentation with All-in-One Transformer Framework Wanyun Li Pinxue Guo Xinyu Zhou Lingyi Hong Yangji He Xiangyu Zheng Wei Zhang Wenqiang Zhang VOS 96 4 0 13 Mar 2024
Conditional computation in neural networks: principles and research trends Simone Scardapane Alessandro Baiocchi Alessio Devoto V. Marsocci Pasquale Minervini Jary Pomponi 97 2 0 12 Mar 2024
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer Jianjian Cao Peng Ye Shengze Li Chong Yu Yansong Tang Jiwen Lu Tao Chen 80 22 0 05 Mar 2024
Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation Zhongzhen Huang Linda Wei Shaoting Zhang Xiaofan Zhang 153 0 0 04 Mar 2024
SoD $^2$ : Statically Optimizing Dynamic Deep Neural Network Wei Niu Gagan Agrawal Bin Ren 75 5 0 29 Feb 2024
CAMixerSR: Only Details Need More "Attention" Yan Wang Yi Liu Shijie Zhao Junlin Li Li Zhang SupR 95 21 0 29 Feb 2024
Understanding Neural Network Binarization with Forward and Backward Proximal Quantizers Yiwei Lu Yaoliang Yu Xinlin Li Vahid Partovi Nia MQ 73 3 0 27 Feb 2024
Multi-Human Mesh Recovery with Transformers Zeyu Wang Zhenzhen Weng Serena Yeung-Levy 3DH 40 1 0 26 Feb 2024
Reading Relevant Feature from Global Representation Memory for Visual Object Tracking Xinyu Zhou Pinxue Guo Lingyi Hong Jinglun Li Wei Zhang Weifeng Ge Wenqiang Zhang 85 12 0 22 Feb 2024
LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views Yuji Roh Qingyun Liu Huan Gui Zhe Yuan Yujin Tang ... Liang Liu Shuchao Bi Lichan Hong Ed H. Chi Zhe Zhao 133 2 0 07 Feb 2024
A Survey on Transformer Compression Yehui Tang Yunhe Wang Jianyuan Guo Zhijun Tu Kai Han Hailin Hu Dacheng Tao 146 35 0 05 Feb 2024
ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars for Write Noise Mitigation Abhiroop Bhattacharjee Abhishek Moitra Priyadarshini Panda CLIP 64 6 0 04 Feb 2024
Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers Jianbin Jiao Xina Cheng Weijie Chen Xiaoting Yin Haowen Shi Kailun Yang ViT 89 2 0 30 Jan 2024
Adaptive Point Transformer Alessandro Baiocchi Indro Spinelli Alessandro Nicolosi Simone Scardapane 61 0 0 26 Jan 2024
NACHOS: Neural Architecture Search for Hardware Constrained Early Exit Neural Networks Matteo Gambella Jary Pomponi Simone Scardapane Manuel Roveri 84 2 0 24 Jan 2024
Accelerating Heterogeneous Tensor Parallelism via Flexible Workload Control Zhigang Wang Xu Zhang Ning Wang Chuanfei Xu Jie Nie Zhiqiang Wei Yu Gu Ge Yu 56 0 0 21 Jan 2024
Towards Language-Driven Video Inpainting via Multimodal Large Language Models Jianzong Wu Xiangtai Li Chenyang Si Shangchen Zhou Jingkang Yang ... Yining Li Kai Chen Yunhai Tong Ziwei Liu Chen Change Loy VGen DiffM MLLM 118 17 0 18 Jan 2024
UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer Ji Liu Dehua Tang Yuanxian Huang Li Zhang Xiaocheng Zeng ... Jinzhang Peng Yu Wang Fan Jiang Lu Tian Ashish Sirasao ViT 62 8 0 12 Jan 2024
Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection Wei Ye Chaoya Jiang Haiyang Xu Chenhao Ye Chenliang Li Mingshi Yan Shikun Zhang Songhang Huang Fei Huang VLM 77 0 0 11 Jan 2024
Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket Zhaokun Zhou Kaiwei Che Wei Fang Keyu Tian Yuesheng Zhu Shuicheng Yan Yonghong Tian Liuliang Yuan ViT 112 33 0 04 Jan 2024
TPC-ViT: Token Propagation Controller for Efficient Vision Transformer Wentao Zhu 74 2 0 03 Jan 2024
BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation Libin Lan Pengzhou Cai Lu Jiang Xiaojuan Liu Yongmei Li Yudong Zhang ViT MedIm 68 10 0 01 Jan 2024
Morphing Tokens Draw Strong Masked Image Models Taekyung Kim Byeongho Heo Dongyoon Han 190 3 0 30 Dec 2023
Expediting Contrastive Language-Image Pretraining via Self-distilled Encoders Bumsoo Kim Jinhyung Kim Yeonsik Jo S. Kim VLM 96 4 0 19 Dec 2023
SHaRPose: Sparse High-Resolution Representation for Human Pose Estimation Xiaoqi An Lin Zhao Chen Gong Nannan Wang Di Wang Jian Yang 3DH ViT 62 11 0 17 Dec 2023
Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference Bartosz Wójcik Alessio Devoto Karol Pustelnik Pasquale Minervini Simone Scardapane 84 6 0 15 Dec 2023
Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models Chen Ju Haicheng Wang Zeqian Li Xu Chen Zhonghua Zhai Weilin Huang Shuai Xiao VLM 125 8 0 12 Dec 2023
F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis Jingkuan Song Jianzhi Liu Lianli Gao Jingkuan Song DiffM VGen 61 5 0 06 Dec 2023
Bootstrapping SparseFormers from Vision Foundation Models Ziteng Gao Zhan Tong Kevin Qinghong Lin Joya Chen Mike Zheng Shou 50 0 0 04 Dec 2023
Token Fusion: Bridging the Gap between Token Pruning and Token Merging Minchul Kim Shangqian Gao Yen-Chang Hsu Yilin Shen Hongxia Jin 87 41 0 02 Dec 2023
Perceptual Group Tokenizer: Building Perception with Iterative Grouping Zhiwei Deng Ting Chen Yang Li ViT VLM 75 2 0 30 Nov 2023
GeoDeformer: Geometric Deformable Transformer for Action Recognition Jinhui Ye Jiaming Zhou Hui Xiong Junwei Liang ViT 31 1 0 29 Nov 2023
ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images Nicolas Bourriez Ihab Bendidi Ethan O. Cohen Gabriel Watkinson Maxime Sanchez Guillaume Bollot Auguste Genovesio MedIm 54 12 0 26 Nov 2023