v1v2v3 (latest)

All Tokens Matter: Token Labeling for Training Better Vision Transformers

22 April 2021

ArXiv (abs)PDF HTML Github (427★)

Papers citing "All Tokens Matter: Token Labeling for Training Better Vision Transformers"

50 / 134 papers shown

Title
Multi-Scale And Token Mergence: Make Your ViT More Efficient Zhe Bian Zhe Wang Wenqiang Han Kangping Wang 64 7 0 08 Jun 2023
Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work Qiangchang Wang Yilong Yin 98 0 0 02 Jun 2023
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers Mengzhao Chen Wenqi Shao Peng Xu Mingbao Lin Kaipeng Zhang Chia-Wen Lin Rongrong Ji Yu Qiao Ping Luo ViT 101 46 0 29 May 2023
Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers Hongjie Wang Bhishma Dedhia N. Jha ViT VLM 131 29 0 27 May 2023
MixPro: Data Augmentation with MaskMix and Progressive Attention Labeling for Vision Transformer QiHao Zhao Yangyu Huang Wei Hu Fan Zhang Jing Liu ViT 75 16 0 24 Apr 2023
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers Siyuan Wei Tianzhu Ye Shen Zhang Yao Tang Jiajun Liang ViT 73 72 0 21 Apr 2023
Efficient Video Action Detection with Token Dropout and Context Refinement Lei Chen Zhan Tong Yibing Song Gangshan Wu Limin Wang 98 16 0 17 Apr 2023
SpectFormer: Frequency and Attention is what you need in a Vision Transformer Badri N. Patro Vinay P. Namboodiri Vijay Srinivas Agneeswaran ViT 90 49 0 13 Apr 2023
Life Regression based Patch Slimming for Vision Transformers Jiawei Chen Lin Chen Jianguo Yang Tianqi Shi Lechao Cheng Zunlei Feng Min-Gyoo Song ViT 60 5 0 11 Apr 2023
Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention Mingyu Ding Songlin Yang Lijie Fan Zhenfang Chen Z. Chen Ping Luo J. Tenenbaum Chuang Gan ViT 157 15 0 06 Apr 2023
Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient Vision Transformers Cong Wei Brendan Duke R. Jiang P. Aarabi Graham W. Taylor Florian Shkurti ViT 107 17 0 24 Mar 2023
BiFormer: Vision Transformer with Bi-Level Routing Attention Lei Zhu Xinjiang Wang Zhanghan Ke Wayne Zhang Rynson W. H. Lau 192 536 0 15 Mar 2023
Making Vision Transformers Efficient from A Token Sparsification View Shuning Chang Pichao Wang Ming Lin Fan Wang David Junhao Zhang Rong Jin Mike Zheng Shou ViT 100 26 0 15 Mar 2023
CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Wei Chen Qibo Qiu Long Chen Boxi Wu Binbin Lin Xiaofei He Wei Liu 98 49 0 13 Mar 2023
Filter Pruning based on Information Capacity and Independence Xiaolong Tang Shuo Ye Yufeng Shi Tianheng Hu Qinmu Peng Xinge You VLM 66 1 0 07 Mar 2023
DistilPose: Tokenized Pose Regression with Heatmap Distillation Suhang Ye Yingyi Zhang Jie Hu Liujuan Cao Shengchuan Zhang Lei Shen Jun Wang Shouhong Ding Rongrong Ji 102 19 0 04 Mar 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 163 6 0 16 Feb 2023
A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity Hongkang Li Ming Wang Sijia Liu Pin-Yu Chen ViT MLT 138 64 0 12 Feb 2023
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition Jiayu Jiao Yuyao Tang Kun-Li Channing Lin Yipeng Gao Jinhua Ma Yaowei Wang Wei-Shi Zheng MedIm ViT 98 155 0 03 Feb 2023
Rethinking Mobile Block for Efficient Attention-based Models Jiangning Zhang Xiangtai Li Jian Li Liang Liu Zhucun Xue Boshen Zhang Zhe Jiang Tianxin Huang Yabiao Wang Chengjie Wang MQ 150 102 0 03 Jan 2023
SMMix: Self-Motivated Image Mixing for Vision Transformers Mengzhao Chen Mingbao Lin Zhihang Lin Yuxin Zhang Chia-Wen Lin Rongrong Ji 129 11 0 26 Dec 2022
What Makes for Good Tokenizers in Vision Transformer? Shengju Qian Yi Zhu Wenbo Li Mu Li Jiaya Jia ViT 91 14 0 21 Dec 2022
OAMixer: Object-aware Mixing Layer for Vision Transformers H. Kang Sangwoo Mo Jinwoo Shin VLM 119 4 0 13 Dec 2022
Vision Transformer with Attentive Pooling for Robust Facial Expression Recognition Fanglei Xue Qiangchang Wang Zichang Tan Zhongsong Ma G. Guo ViT 110 72 0 11 Dec 2022
CamoFormer: Masked Separable Attention for Camouflaged Object Detection Bo Yin Xuying Zhang Qibin Hou Bo Sun Deng-Ping Fan Luc Van Gool 104 59 0 10 Dec 2022
Algorithmic progress in computer vision Ege Erdil T. Besiroglu 67 21 0 10 Dec 2022
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition Qibin Hou Cheng Lu Mingg-Ming Cheng Jiashi Feng ViT 126 141 0 22 Nov 2022
Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers Sifan Long Z. Zhao Jimin Pi Sheng-sheng Wang Jingdong Wang 90 39 0 21 Nov 2022
Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training Zhenglun Kong Haoyu Ma Geng Yuan Mengshu Sun Yanyue Xie ... Tianlong Chen Xiaolong Ma Xiaohui Xie Zhangyang Wang Yanzhi Wang ViT 114 24 0 19 Nov 2022
HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision Transformers Peiyan Dong Mengshu Sun Alec Lu Yanyue Xie Li-Yu Daisy Liu ... Xin Meng Zechao Li Xue Lin Zhenman Fang Yanzhi Wang ViT 95 71 0 15 Nov 2022
MogaNet: Multi-order Gated Aggregation Network Siyuan Li Zedong Wang Zicheng Liu Cheng Tan Haitao Lin Di Wu Zhiyuan Chen Jiangbin Zheng Stan Z. Li 107 65 0 07 Nov 2022
Data Level Lottery Ticket Hypothesis for Vision Transformers Xuan Shen Zhenglun Kong Minghai Qin Peiyan Dong Geng Yuan Xin Meng Hao Tang Xiaolong Ma Yanzhi Wang 96 6 0 02 Nov 2022
LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context Propagation in Transformers Zhuo Huang Zhiyou Zhao Banghuai Li Jungong Han 3DPC ViT 102 58 0 23 Oct 2022
OpenEarthMap: A Benchmark Dataset for Global High-Resolution Land Cover Mapping J. Xia Naoto Yokoya B. Adriano Clifford Broni-Bediako VLM 92 73 0 19 Oct 2022
Token-Label Alignment for Vision Transformers Han Xiao Wenzhao Zheng Zhengbiao Zhu Jie Zhou Jiwen Lu 87 4 0 12 Oct 2022
Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets Zhiying Lu Hongtao Xie Chuanbin Liu Yongdong Zhang ViT 107 61 0 12 Oct 2022
SaiT: Sparse Vision Transformers through Adaptive Token Pruning Ling Li D. Thorsley Joseph Hassoun ViT 41 19 0 11 Oct 2022
Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention Xiangcheng Liu Tianyi Wu Guodong Guo ViT 132 31 0 28 Sep 2022
MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition Y. Wang H. Sun Xiaodi Wang Bin Zhang Chaonan Li Ying Xin Baochang Zhang Errui Ding Shumin Han ViT 68 15 0 31 Aug 2022
Efficient Attention-free Video Shift Transformers Adrian Bulat Brais Martínez Georgios Tzimiropoulos ViT 53 1 0 23 Aug 2022
Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei ViT 225 142 0 11 Jul 2022
Dual Vision Transformer Ting Yao Yehao Li Yingwei Pan Yu Wang Xiaoping Zhang Tao Mei ViT 233 81 0 11 Jul 2022
Multiple Instance Learning with Mixed Supervision in Gleason Grading Hao Bian Zhucheng Shao Yang Chen Yifeng Wang Haoqian Wang Jian Zhang Yongbing Zhang 48 10 0 26 Jun 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 121 35 0 19 Jun 2022
SP-ViT: Learning 2D Spatial Priors for Vision Transformers Yuxuan Zhou Wangmeng Xiang Chong Li Biao Wang Xihan Wei Lei Zhang Margret Keuper Xia Hua ViT 71 15 0 15 Jun 2022
Inception Transformer Chenyang Si Weihao Yu Pan Zhou Yichen Zhou Xinchao Wang Shuicheng Yan ViT 118 199 0 25 May 2022
Super Vision Transformer Mingbao Lin Mengzhao Chen Yuxin Zhang Yunhang Shen Rongrong Ji Liujuan Cao ViT 125 21 0 23 May 2022
An Extendable, Efficient and Effective Transformer-based Object Detector Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang 56 14 0 17 Apr 2022
Neighborhood Attention Transformer Ali Hassani Steven Walton Jiacheng Li Shengjia Li Humphrey Shi ViT AI4TS 117 276 0 14 Apr 2022
DaViT: Dual Attention Vision Transformers Mingyu Ding Bin Xiao Noel Codella Ping Luo Jingdong Wang Lu Yuan ViT 166 253 0 07 Apr 2022