v1v2v3 (latest)

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

1 July 2021

Jianmin Bao

Lu Yuan

ArXiv (abs)PDF HTML Github (569★)

Papers citing "CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows"

50 / 440 papers shown

Title
Making Vision Transformers Efficient from A Token Sparsification View Shuning Chang Pichao Wang Ming Lin Fan Wang David Junhao Zhang Rong Jin Mike Zheng Shou ViT 100 26 0 15 Mar 2023
Revisit Parameter-Efficient Transfer Learning: A Two-Stage Paradigm Hengyuan Zhao Hao Luo Yuyang Zhao Pichao Wang F. Wang Mike Zheng Shou 76 5 0 14 Mar 2023
CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Wei Chen Qibo Qiu Long Chen Boxi Wu Binbin Lin Xiaofei He Wei Liu 98 49 0 13 Mar 2023
Recursive Generalization Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu Lingyu Kong Xiaokang Yang ViT 131 32 0 11 Mar 2023
Point Cloud Classification Using Content-based Transformer via Clustering in Feature Space Yahui Liu Bin Wang Yisheng Lv Lingxi Li Feiyue Wang ViT 3DPC 114 48 0 08 Mar 2023
FFT-based Dynamic Token Mixer for Vision Yuki Tatsunami Masato Taki 107 23 0 07 Mar 2023
Delivering Arbitrary-Modal Semantic Segmentation Jiaming Zhang R. Liu Haowen Shi Kailun Yang Simon Reiß Kunyu Peng Haodong Fu Kaiwei Wang Rainer Stiefelhagen VLM 116 100 0 02 Mar 2023
A Convolutional Vision Transformer for Semantic Segmentation of Side-Scan Sonar Data Hayat Rajani N. Gracias Rafael García ViT 64 14 0 24 Feb 2023
Human MotionFormer: Transferring Human Motions with Vision Transformers Hongyu Liu Xintong Han Chengbin Jin Lihui Qian Huawei Wei ... Faqiang Wang Haoye Dong Yibing Song Jia Xu Qifeng Chen 58 13 0 22 Feb 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 163 6 0 16 Feb 2023
3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection Jong Sung Park Apoorv Singh Varun Bankiti 3DPC 81 7 0 16 Feb 2023
CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction Gang Zhang Zi-Hua Li Chufeng Tang Jianmin Li Xiaolin Hu 106 20 0 13 Feb 2023
Reversible Vision Transformers K. Mangalam Haoqi Fan Yanghao Li Chaoxiong Wu Bo Xiong Christoph Feichtenhofer Jitendra Malik ViT 79 47 0 09 Feb 2023
AIM: Adapting Image Models for Efficient Video Action Recognition Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chong Chen Mu Li ViT 158 157 0 06 Feb 2023
CECT: Controllable Ensemble CNN and Transformer for COVID-19 Image Classification Zhao Liu Leizhao Shen ViT 74 9 0 05 Feb 2023
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition Jiayu Jiao Yuyao Tang Kun-Li Channing Lin Yipeng Gao Jinhua Ma Yaowei Wang Wei-Shi Zheng MedIm ViT 98 156 0 03 Feb 2023
Image Super-Resolution using Efficient Striped Window Transformer Jinpeng Shi Hui Li Tian Yu Liu Yulong Liu Hao Fei Jinchen Zhu Ling Zheng Shizhuang Weng 79 11 0 24 Jan 2023
DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets Haiyang Wang Chen Shi Shaoshuai Shi Meng Lei Sen Wang Di He Bernt Schiele Liwei Wang 115 122 0 15 Jan 2023
HRTransNet: HRFormer-Driven Two-Modality Salient Object Detection Bin Tang Zhengyi Liu Yacheng Tan Qian He ViT 104 80 0 08 Jan 2023
FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection Shuailei Ma Yuefeng Wang Shanze Wang Ying-yu Wei 83 35 0 08 Jan 2023
Rethinking Mobile Block for Efficient Attention-based Models Jiangning Zhang Xiangtai Li Jian Li Liang Liu Zhucun Xue Boshen Zhang Zhe Jiang Tianxin Huang Yabiao Wang Chengjie Wang MQ 154 105 0 03 Jan 2023
Representation Separation for Semantic Segmentation with Vision Transformers Yuanduo Hong Huihui Pan Weichao Sun Xinghu Yu Huijun Gao ViT 83 5 0 28 Dec 2022
SMMix: Self-Motivated Image Mixing for Vision Transformers Mengzhao Chen Mingbao Lin Zhihang Lin Yuxin Zhang Yong Li Rongrong Ji 129 11 0 26 Dec 2022
DQnet: Cross-Model Detail Querying for Camouflaged Object Detection Wei Sun Chengao Liu Linyan Zhang Yu Li Pengxu Wei Chang-rui Liu J. Zou Jianbin Jiao QiXiang Ye 84 6 0 16 Dec 2022
Rethinking Vision Transformers for MobileNet Size and Speed Yanyu Li Ju Hu Yang Wen Georgios Evangelidis Kamyar Salahi Yanzhi Wang Sergey Tulyakov Jian Ren ViT 127 170 0 15 Dec 2022
Most Important Person-guided Dual-branch Cross-Patch Attention for Group Affect Recognition Hongxia Xie Ming-Xian Lee Tzu-Jui Chen Hung-Jen Chen Hou-I Liu Hong-Han Shuai Wen-Huang Cheng CVBM 77 8 0 14 Dec 2022
GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group Propagation Chenhongyi Yang Jiarui Xu Shalini De Mello Elliot J. Crowley Xinyu Wang ViT 109 22 0 13 Dec 2022
Joint Spatio-Temporal Modeling for the Semantic Change Detection in Remote Sensing Images L. Ding Jing Zhang Kai Zhang Haitao Guo Bing Liu Lorenzo Bruzzone 67 56 0 10 Dec 2022
Co-training $2^L$ Submodels for Visual Recognition Hugo Touvron Matthieu Cord Maxime Oquab Piotr Bojanowski Jakob Verbeek Hervé Jégou VLM 72 10 0 09 Dec 2022
Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Lu Yuan Yu-Gang Jiang VGen 128 94 0 08 Dec 2022
X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using CLIP and StableDiffusion Hanqing Zhao Dianmo Sheng Jianmin Bao Dongdong Chen Dong Chen ... Ce Liu Wenbo Zhou Qi Chu Weiming Zhang Neng H. Yu VLM DiffM 106 42 0 07 Dec 2022
Window Normalization: Enhancing Point Cloud Understanding by Unifying Inconsistent Point Densities Qi Wang Shengge Shi Jiahui Li Wuming Jiang Xiangde Zhang 124 9 0 05 Dec 2022
ResFormer: Scaling ViTs with Multi-Resolution Training Rui Tian Zuxuan Wu Qiuju Dai Hang-Rui Hu Yu Qiao Yu-Gang Jiang ViT 102 35 0 01 Dec 2022
FsaNet: Frequency Self-attention for Semantic Segmentation Fengyu Zhang Ashkan Panahi Guangjun Gao AI4TS 100 31 0 28 Nov 2022
Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation Kaihong Wang Donghyun Kim Regerio Feris Kate Saenko Margrit Betke ViT 78 4 0 27 Nov 2022
Degenerate Swin to Win: Plain Window-based Transformer without Sophisticated Operations Tan Yu Ping Li ViT 83 5 0 25 Nov 2022
UperFormer: A Multi-scale Transformer-based Decoder for Semantic Segmentation Jing Xu W. Shi Pan Gao Zhengwei Wang Qizhu Li ViT 27 1 0 25 Nov 2022
Cross Aggregation Transformer for Image Restoration Zheng Chen Yulun Zhang Jinjin Gu Yongbing Zhang Lingyu Kong X. Yuan ViT 120 158 0 24 Nov 2022
A Dual-scale Lead-seperated Transformer With Lead-orthogonal Attention And Meta-information For Ecg Classification Yongbin Li Guijin Wang Zhourui Xia Wenming Yang Li Sun MedIm 54 1 0 23 Nov 2022
Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration Yunjie Tian Lingxi Xie Jihao Qiu Jianbin Jiao Yaowei Wang Qi Tian Qixiang Ye ViT 98 7 0 23 Nov 2022
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition Qibin Hou Cheng Lu Mingg-Ming Cheng Jiashi Feng ViT 130 141 0 22 Nov 2022
N-Gram in Swin Transformers for Efficient Lightweight Image Super-Resolution Haram Choi Jeong-Sik Lee Jihoon Yang ViT 88 84 0 21 Nov 2022
Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer Haowen Shi Zhijie Xu Kailun Yang Xiaoyue Yin Ze Wang Kaiwei Wang ViT 85 5 0 21 Nov 2022
Vision Transformer with Super Token Sampling Huaibo Huang Xiaoqiang Zhou Jie Cao Ran He Tieniu Tan ViT 90 59 0 21 Nov 2022
Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference Haoran You Yunyang Xiong Xiaoliang Dai Bichen Wu Peizhao Zhang Haoqi Fan Peter Vajda Yingyan Lin 159 34 0 18 Nov 2022
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones Yulin Wang Yang Yue Rui Lu Tian-De Liu Zhaobai Zhong S. Song Gao Huang 90 29 0 17 Nov 2022
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang Limin Wang Yu Qiao ViT 136 113 0 17 Nov 2022
Fcaformer: Forward Cross Attention in Hybrid Vision Transformer Haokui Zhang Wenze Hu Xiaoyu Wang ViT 73 8 0 14 Nov 2022
ParCNetV2: Oversized Kernel with Enhanced Attention Ruihan Xu Haokui Zhang Wenze Hu Shiliang Zhang Xiaoyu Wang ViT 87 6 0 14 Nov 2022
Token Transformer: Can class token help window-based transformer build better long-range interactions? Jia-ju Mao Yuan Chang Xuesong Yin 56 0 0 11 Nov 2022