v1v2 (latest)

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

3 June 2021

Wenliang Zhao

Jie Zhou

ArXiv (abs)PDF HTML Github (608★)

Papers citing "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification"

50 / 444 papers shown

Title
Make A Long Image Short: Adaptive Token Length for Vision Transformers Yuqin Zhu Yichen Zhu ViT 118 17 0 05 Jul 2023
Razor SNN: Efficient Spiking Neural Network with Temporal Embeddings Yuan Zhang Jian Cao Ling Zhang Jue Chen Wenyu Sun Yuan Wang 50 1 0 30 Jun 2023
Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference Junyan Li Li Zhang Jiahang Xu Yujing Wang Shaoguang Yan ... Ting Cao Hao Sun Weiwei Deng Qi Zhang Mao Yang 64 10 0 26 Jun 2023
Adaptive Window Pruning for Efficient Local Motion Deblurring Haoying Li Jixin Zhao Shangchen Zhou H. Feng Chongyi Li Chen Change Loy ViT 82 5 0 25 Jun 2023
How can objects help action recognition? Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 108 18 0 20 Jun 2023
Scaling Open-Vocabulary Object Detection Matthias Minderer A. Gritsenko N. Houlsby VLM ObjD 114 203 0 16 Jun 2023
Revisiting Token Pruning for Object Detection and Instance Segmentation Yifei Liu Mathias Gehrig Nico Messikommer Marco Cannici Davide Scaramuzza ViT VLM 112 27 0 12 Jun 2023
ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer Haoran You Huihong Shi Yipin Guo Yingyan Lin Lin 133 16 0 10 Jun 2023
SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers Bowen Zhang Liyang Liu Minh Hieu Phan Zhi Tian Chunhua Shen Yifan Liu ViT 112 30 0 09 Jun 2023
FasterViT: Fast Vision Transformers with Hierarchical Attention Ali Hatamizadeh Greg Heinrich Hongxu Yin Andrew Tao J. Álvarez Jan Kautz Pavlo Molchanov ViT 122 72 0 09 Jun 2023
Multi-Scale And Token Mergence: Make Your ViT More Efficient Zhe Bian Zhe Wang Wenqiang Han Kangping Wang 64 7 0 08 Jun 2023
Efficient Vision Transformer for Human Pose Estimation via Patch Selection K. A. Kinfu René Vidal ViT 70 4 0 07 Jun 2023
SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation Xuewei Li Tao Wu Zhongang Qi Gaoang Wang Ying Shan Xi Li ViT 3DPC MDE 63 13 0 06 Jun 2023
Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers Chenyang Lu Daan de Geus Gijs Dubbelman ViT 132 20 0 03 Jun 2023
Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work Qiangchang Wang Yilong Yin 98 0 0 02 Jun 2023
Auto-Spikformer: Spikformer Architecture Search Kaiwei Che Zhaokun Zhou Zhengyu Ma Wei Fang Yanqing Chen Shuaijie Shen Liuliang Yuan Yonghong Tian 109 8 0 01 Jun 2023
Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting Shubin Huang Qiong Wu Yiyi Zhou Weijie Chen Rongsheng Zhang Xiaoshuai Sun Rongrong Ji VLM VPVLM LRM 43 0 0 01 Jun 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 140 29 0 01 Jun 2023
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers Mengzhao Chen Wenqi Shao Peng Xu Mingbao Lin Kaipeng Zhang Chia-Wen Lin Rongrong Ji Yu Qiao Ping Luo ViT 98 46 0 29 May 2023
PuMer: Pruning and Merging Tokens for Efficient Vision Language Models Qingqing Cao Bhargavi Paranjape Hannaneh Hajishirzi MLLM VLM 75 27 0 27 May 2023
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers Dachuan Shi Chaofan Tao Anyi Rao Zhendong Yang Chun Yuan Jiaqi Wang VLM 100 23 0 27 May 2023
Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers Hongjie Wang Bhishma Dedhia N. Jha ViT VLM 121 29 0 27 May 2023
Do We Really Need a Large Number of Visual Prompts? Youngeun Kim Yuhang Li Abhishek Moitra Ruokai Yin Priyadarshini Panda VLM VPVLM 95 6 0 26 May 2023
MixFormerV2: Efficient Fully Transformer Tracking Yutao Cui Tian-Shu Song Gangshan Wu Liming Wang 90 59 0 25 May 2023
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models Zekun Wang Jingchang Chen Wangchunshu Zhou Haichao Zhu Jiafeng Liang Liping Shan Ming Liu Dongliang Xu Qing Yang Bing Qin VLM 87 5 0 24 May 2023
Predicting Token Impact Towards Efficient Vision Transformer Hong Wang Su Yang Xiaoke Huang Weishan Zhang 82 0 0 24 May 2023
BinaryViT: Towards Efficient and Accurate Binary Vision Transformers Junrui Xiao Zhikai Li Lianwei Yang Qingyi Gu MQ ViT 95 2 0 24 May 2023
Reparo: Loss-Resilient Generative Codec for Video Conferencing Tianhong Li Vibhaalakshmi Sivaraman Pantea Karimi Lijie Fan M. Alizadeh Dina Katabi 66 7 0 23 May 2023
Bi-ViT: Pushing the Limit of Vision Transformer Quantization Yanjing Li Sheng Xu Mingbao Lin Xianbin Cao Chuanjian Liu Xiao Sun Baochang Zhang ViT MQ 89 11 0 21 May 2023
PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction Hao Wu Wei Xion Fan Xu Xian-Sheng Hua C. L. Philip Chen Xiansheng Hua AI4TS 217 32 0 19 May 2023
Boost Vision Transformer with GPU-Friendly Sparsity and Quantization Chong Yu Tao Chen Zhongxue Gan Jiayuan Fan MQ ViT 76 25 0 18 May 2023
3D Small Object Detection with Dynamic Spatial Pruning Xiuwei Xu Zhihao Sun Ziwei Wang Hongmin Liu Jie Zhou Jiwen Lu 3DPC 144 4 0 05 May 2023
IMP: Iterative Matching and Pose Estimation with Adaptive Pooling Fei Xue Ignas Budvytis R. Cipolla 99 14 0 28 Apr 2023
AutoFocusFormer: Image Segmentation off the Grid Chen Ziwen K. Patnaik Shuangfei Zhai Alvin Wan Zhile Ren Alex Schwing Alex Colburn Li Fuxin 96 12 0 24 Apr 2023
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers Siyuan Wei Tianzhu Ye Shen Zhang Yao Tang Jiajun Liang ViT 73 72 0 21 Apr 2023
SViTT: Temporal Learning of Sparse Video-Text Transformers Yi Li Kyle Min Subarna Tripathi Nuno Vasconcelos 58 13 0 18 Apr 2023
Efficient Video Action Detection with Token Dropout and Context Refinement Lei Chen Zhan Tong Yibing Song Gangshan Wu Limin Wang 91 16 0 17 Apr 2023
RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer Jiahao Wang Songyang Zhang Yong Liu Taiqiang Wu Yujiu Yang Xihui Liu Kai-xiang Chen Ping Luo Dahua Lin 79 22 0 12 Apr 2023
DynamicDet: A Unified Dynamic Architecture for Object Detection Zhi-Hao Lin Yongtao Wang Jinhe Zhang Xiaojie Chu ObjD 80 31 0 12 Apr 2023
Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation Feixiang Ren ViT 83 2 0 12 Apr 2023
Sim-T: Simplify the Transformer Network by Multiplexing Technique for Speech Recognition Guangyong Wei Zhikui Duan Shiren Li Guangguang Yang Xinmei Yu Junhua Li 63 5 0 11 Apr 2023
Conditional Adapters: Parameter-efficient Transfer Learning with Fast Inference Tao Lei Junwen Bai Siddhartha Brahma Joshua Ainslie Kenton Lee ... Vincent Zhao Yuexin Wu Yue Liu Yu Zhang Ming-Wei Chang BDL AI4CE 101 63 0 11 Apr 2023
Life Regression based Patch Slimming for Vision Transformers Jiawei Chen Lin Chen Jianguo Yang Tianqi Shi Lechao Cheng Zunlei Feng Min-Gyoo Song ViT 53 5 0 11 Apr 2023
MC-MLP:Multiple Coordinate Frames in all-MLP Architecture for Vision Zhimin Zhu Jianguo Zhao Tong Mu Yuliang Yang Mengyu Zhu 65 0 0 08 Apr 2023
SparseFormer: Sparse Visual Recognition via Limited Latent Tokens Ziteng Gao Zhan Tong Limin Wang Mike Zheng Shou 60 10 0 07 Apr 2023
Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention Mingyu Ding Songlin Yang Lijie Fan Zhenfang Chen Z. Chen Ping Luo J. Tenenbaum Chuang Gan ViT 149 15 0 06 Apr 2023
Attention Map Guided Transformer Pruning for Edge Device Junzhu Mao Yazhou Yao Zeren Sun Xing-Rui Huang Fumin Shen Hengtao Shen ViT 58 1 0 04 Apr 2023
Learning Dynamic Style Kernels for Artistic Style Transfer Wenju Xu Chengjiang Long Yongwei Nie 57 15 0 02 Apr 2023
SVT: Supertoken Video Transformer for Efficient Video Understanding Chen-Ming Pan Rui Hou Hanchao Yu Qifan Wang Senem Velipasalar Madian Khabsa ViT 83 0 0 01 Apr 2023
Vision Transformers with Mixed-Resolution Tokenization Tomer Ronen Omer Levy A. Golbert ViT 73 21 0 01 Apr 2023