v1v2 (latest)

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

3 June 2021

Wenliang Zhao

Jie Zhou

ArXiv (abs)PDF HTML Github (608★)

Papers citing "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification"

44 / 444 papers shown

Title
Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot Learning Yang He Weihan Liang Dongyang Zhao Hong-Yu Zhou Weifeng Ge Yizhou Yu Wenqiang Zhang ViT 98 46 0 17 Mar 2022
Enriched CNN-Transformer Feature Aggregation Networks for Super-Resolution Jinsu Yoo Taehoon Kim Sihaeng Lee Seunghyeon Kim Hankook Lee Tae Hyun Kim SupR ViT 68 54 0 15 Mar 2022
Visualizing and Understanding Patch Interactions in Vision Transformer Jie Ma Yalong Bai Bineng Zhong Wei Zhang Ting Yao Tao Mei ViT 54 35 0 11 Mar 2022
Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group Attention Kai Liu Tianyi Wu Cong Liu Guodong Guo ViT 74 17 0 08 Mar 2022
CF-ViT: A General Coarse-to-Fine Method for Vision Transformer Mengzhao Chen Mingbao Lin Ke Li Yunhang Shen Yongjian Wu Chia-Wen Lin Rongrong Ji ViT 95 66 0 08 Mar 2022
Multi-Tailed Vision Transformer for Efficient Inference Yunke Wang Bo Du Wenyuan Wang Chang Xu ViT 315 6 0 03 Mar 2022
Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations Youwei Liang Chongjian Ge Zhan Tong Yibing Song Jue Wang P. Xie ViT 78 255 0 16 Feb 2022
CATs++: Boosting Cost Aggregation with Convolutions and Transformers Seokju Cho Sunghwan Hong Seung Wook Kim ViT 94 40 0 14 Feb 2022
Transformers in Medical Imaging: A Survey Fahad Shamshad Salman Khan Syed Waqas Zamir Muhammad Haris Khan Munawar Hayat Fahad Shahbaz Khan Huazhu Fu ViT LM&MA MedIm 195 707 0 24 Jan 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 225 382 0 24 Jan 2022
Q-ViT: Fully Differentiable Quantization for Vision Transformer Zhexin Li Tong Yang Peisong Wang Jian Cheng ViT MQ 88 42 0 19 Jan 2022
Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space Arnav Chavan Zhiqiang Shen Zhuang Liu Zechun Liu Kwang-Ting Cheng Eric P. Xing ViT 94 72 0 03 Jan 2022
Multi-Dimensional Model Compression of Vision Transformer Zejiang Hou S. Kung ViT 64 18 0 31 Dec 2021
Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention Sitong Wu Tianyi Wu Hao Hao Tan G. Guo ViT 98 71 0 28 Dec 2021
SPViT: Enabling Faster Vision Transformers via Soft Token Pruning Zhenglun Kong Peiyan Dong Xiaolong Ma Xin Meng Mengshu Sun ... Geng Yuan Bin Ren Minghai Qin Hao Tang Yanzhi Wang ViT 86 154 0 27 Dec 2021
ELSA: Enhanced Local Self-Attention for Vision Transformer Jingkai Zhou Pichao Wang Fan Wang Qiong Liu Hao Li Rong Jin ViT 112 41 0 23 Dec 2021
MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation Zhongzhi Yu Y. Fu Sicheng Li Chaojian Li Yingyan Lin ViT 76 19 0 21 Dec 2021
AdaViT: Adaptive Tokens for Efficient Vision Transformer Hongxu Yin Arash Vahdat J. Álvarez Arun Mallya Jan Kautz Pavlo Molchanov ViT 140 342 0 14 Dec 2021
Embracing Single Stride 3D Object Detector with Sparse Transformer Lue Fan Ziqi Pang Tianyuan Zhang Yu-Xiong Wang Hang Zhao Feng Wang Naiyan Wang Zhaoxiang Zhang ViT 94 267 0 13 Dec 2021
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition Lingchen Meng Hengduo Li Bor-Chun Chen Shiyi Lan Zuxuan Wu Yu-Gang Jiang Ser-Nam Lim ViT 91 241 0 30 Nov 2021
Adaptive Token Sampling For Efficient Vision Transformers Mohsen Fayyaz Soroush Abbasi Koohpayegani F. Jafari Sunando Sengupta Hamid Reza Vaezi Joze Eric Sommerlade Hamed Pirsiavash Juergen Gall ViT 133 159 0 30 Nov 2021
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity Byungseok Roh Jaewoong Shin Wuhyun Shin Saehoon Kim ViT 52 146 0 29 Nov 2021
FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer Yang Lin Tianyu Zhang Peiqin Sun Zheng Li Shuchang Zhou ViT MQ 99 157 0 27 Nov 2021
NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition Hao Liu Xinghua Jiang Xin Li Zhimin Bao Deqiang Jiang Bo Ren ViT 79 16 0 25 Nov 2021
Self-slimmed Vision Transformer Zhuofan Zong Kunchang Li Guanglu Song Yali Wang Yu Qiao B. Leng Yu Liu ViT 106 32 0 24 Nov 2021
Pruning Self-attentions into Convolutional Layers in Single Path Haoyu He Jianfei Cai Jing Liu Zizheng Pan Jing Zhang Dacheng Tao Bohan Zhuang ViT 95 40 0 23 Nov 2021
Efficient Video Transformers with Spatial-Temporal Token Selection Junke Wang Xitong Yang Hengduo Li Li Liu Zuxuan Wu Yu-Gang Jiang ViT 68 67 0 23 Nov 2021
The Nuts and Bolts of Adopting Transformer in GANs Rui Xu Xiangyu Xu Kai-xiang Chen Bolei Zhou Chen Change Loy ViT 86 4 0 25 Oct 2021
Global Vision Transformer Pruning with Hessian-Aware Saliency Huanrui Yang Hongxu Yin Maying Shen Pavlo Molchanov Hai Helen Li Jan Kautz ViT 86 45 0 10 Oct 2021
Token Pooling in Vision Transformers D. Marin Jen-Hao Rick Chang Anurag Ranjan Anish K. Prabhu Mohammad Rastegari Oncel Tuzel ViT 143 70 0 08 Oct 2021
MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer Sachin Mehta Mohammad Rastegari ViT 294 1,296 0 05 Oct 2021
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers Changlin Li Guangrun Wang Bing Wang Xiaodan Liang Zhihui Li Xiaojun Chang 96 9 0 21 Sep 2021
Complementary Feature Enhanced Network with Vision Transformer for Image Dehazing Dong Zhao Jia Li Hongyu Li Longhao Xu ViT 70 17 0 15 Sep 2021
CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation Tongkun Xu Weihua Chen Pichao Wang Fan Wang Hao Li Rong Jin ViT 157 221 0 13 Sep 2021
Scaled ReLU Matters for Training Vision Transformers Pichao Wang Xue Wang Haowen Luo Jingkai Zhou Zhipeng Zhou Fan Wang Hao Li Rong Jin 97 43 0 08 Sep 2021
Exploring and Improving Mobile Level Vision Transformers Pengguang Chen Yixin Chen Shu Liu Ming-Hsuan Yang Jiaya Jia ViT 104 4 0 30 Aug 2021
PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers Xumin Yu Yongming Rao Ziyi Wang Zuyan Liu Jiwen Lu Jie Zhou ViT 95 433 0 19 Aug 2021
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer Yifan Xu Zhijie Zhang Mengdan Zhang Kekai Sheng Ke Li Weiming Dong Liqing Zhang Changsheng Xu Xing Sun ViT 94 215 0 03 Aug 2021
S $^2$ -MLPv2: Improved Spatial-Shift MLP Architecture for Vision Tan Yu Xu Li Yunfeng Cai Mingming Sun Ping Li 75 54 0 02 Aug 2021
Global Filter Networks for Image Classification Yongming Rao Wenliang Zhao Zheng Zhu Jiwen Lu Jie Zhou ViT 74 473 0 01 Jul 2021
IA-RED $^2$ : Interpretability-Aware Redundancy Reduction for Vision Transformers Bowen Pan Yikang Shen Yi Ding Zhangyang Wang Rogerio Feris A. Oliva VLM ViT 118 165 0 23 Jun 2021
Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition Yulin Wang Rui Huang S. Song Zeyi Huang Gao Huang ViT 98 194 0 31 May 2021
KVT: k-NN Attention for Boosting Vision Transformers Pichao Wang Xue Wang F. Wang Ming Lin Shuning Chang Hao Li Rong Jin ViT 129 107 0 28 May 2021
Dynamic Neural Networks: A Survey Yizeng Han Gao Huang Shiji Song Le Yang Honghui Wang Yulin Wang 3DH AI4TS AI4CE 126 654 0 09 Feb 2021