v1v2v3 (latest)

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

1 July 2021

Jianmin Bao

Lu Yuan

ArXiv (abs)PDF HTML Github (569★)

Papers citing "CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows"

50 / 440 papers shown

Title
2-D SSM: A General Spatial Layer for Visual Transformers Ethan Baron Itamar Zimerman Lior Wolf 96 16 0 11 Jun 2023
FalconNet: Factorization for the Light-weight ConvNets Zhicheng Cai Qiu Shen 125 14 0 10 Jun 2023
SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers Bowen Zhang Liyang Liu Minh Hieu Phan Zhi Tian Chunhua Shen Yifan Liu ViT 114 30 0 09 Jun 2023
FasterViT: Fast Vision Transformers with Hierarchical Attention Ali Hatamizadeh Greg Heinrich Hongxu Yin Andrew Tao J. Álvarez Jan Kautz Pavlo Molchanov ViT 122 72 0 09 Jun 2023
Illumination Controllable Dehazing Network based on Unsupervised Retinex Embedding Jie Gui Xiaofeng Cong Lei He Yuan Yan Tang James T. Kwok 59 11 0 09 Jun 2023
Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers Chenyang Lu Daan de Geus Gijs Dubbelman ViT 132 20 0 03 Jun 2023
Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work Qiangchang Wang Yilong Yin 104 0 0 02 Jun 2023
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles Chaitanya K. Ryali Yuan-Ting Hu Daniel Bolya Chen Wei Haoqi Fan ... Omid Poursaeed Judy Hoffman Jitendra Malik Yanghao Li Christoph Feichtenhofer 3DH 136 189 0 01 Jun 2023
Masked Autoencoders with Multi-Window Local-Global Attention Are Better Audio Learners Sarthak Yadav Sergios Theodoridis Lars Kai Hansen Zheng-Hua Tan 102 9 0 01 Jun 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 165 29 0 01 Jun 2023
Are Large Kernels Better Teachers than Transformers for ConvNets? Tianjin Huang Lu Yin Zhenyu Zhang Lijuan Shen Meng Fang Mykola Pechenizkiy Zhangyang Wang Shiwei Liu 95 13 0 30 May 2023
AMatFormer: Efficient Feature Matching via Anchor Matching Transformer Bo Jiang S. Luo Tianlin Li Chuanfu Li Jin Tang 70 9 0 30 May 2023
Predicting Token Impact Towards Efficient Vision Transformer Hong Wang Su Yang Xiaoke Huang Weishan Zhang 82 0 0 24 May 2023
Dual Path Transformer with Partition Attention Zhengkai Jiang Liang Liu Jiangning Zhang Yabiao Wang Mingang Chen Chengjie Wang ViT 100 2 0 24 May 2023
Efficient Large-Scale Visual Representation Learning And Evaluation Eden Dolev A. Awad Denisa Roberts Zahra Ebrahimzadeh Marcin Mejran Vaibhav Malpani Mahir Yavuz 96 0 0 22 May 2023
GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance Minhyeok Lee 69 30 0 20 May 2023
Reciprocal Attention Mixing Transformer for Lightweight Image Restoration Haram Choi Cheolwoong Na Jihyeon Oh Seungjae Lee Jinseop S. Kim Subeen Choe Jeongmin Lee Taehoon Kim Jihoon Yang 105 9 0 19 May 2023
Dual flow fusion model for concrete surface crack segmentation Yuwei Duan 50 1 0 09 May 2023
OctFormer: Octree-based Transformers for 3D Point Clouds Peng-Shuai Wang ViT 3DPC 83 88 0 04 May 2023
AxWin Transformer: A Context-Aware Vision Transformer Backbone with Axial Windows Fangjian Lin Yizhe Ma Sitong Wu Long Yu Sheng Tian ViT 41 5 0 02 May 2023
PRSeg: A Lightweight Patch Rotate MLP Decoder for Semantic Segmentation Yizhe Ma Fangjian Lin Sitong Wu Sheng Tian Long Yu 92 12 0 01 May 2023
Cross-Shaped Windows Transformer with Self-supervised Pretraining for Clinically Significant Prostate Cancer Detection in Bi-parametric MRI Yuheng Li Jacob F. Wynne Jing Wang Richard L. J. Qiu J. Roper ... A. Jani Tian Liu P. Patel H. Mao Xiaofeng Yang OOD ViT MedIm 98 11 0 30 Apr 2023
UniNeXt: Exploring A Unified Architecture for Vision Recognition Fangjian Lin Jianlong Yuan Sitong Wu Fan Wang Zhibin Wang ViT 85 14 0 26 Apr 2023
ScatterFormer: Locally-Invariant Scattering Transformer for Patient-Independent Multispectral Detection of Epileptiform Discharges Rui-Hua Zheng Jun Yu Li Yi Wang Tian Luo Yuguo Yu MedIm 79 5 0 26 Apr 2023
NTIRE 2023 Challenge on Light Field Image Super-Resolution: Dataset, Methods and Results Yingqian Wang Longguang Wang Zhengyu Liang Jung-Mo Yang Radu Timofte Y. Guo 60 39 0 20 Apr 2023
LipsFormer: Introducing Lipschitz Continuity to Vision Transformers Xianbiao Qi Jianan Wang Yihao Chen Yukai Shi Lei Zhang 98 21 0 19 Apr 2023
SViTT: Temporal Learning of Sparse Video-Text Transformers Yi Li Kyle Min Subarna Tripathi Nuno Vasconcelos 63 13 0 18 Apr 2023
AutoTaskFormer: Searching Vision Transformers for Multi-task Learning Yang Liu Shen Yan Yuge Zhang Kan Ren Quan Zhang Zebin Ren Deng Cai Mi Zhang ViT 60 0 0 18 Apr 2023
EGformer: Equirectangular Geometry-biased Transformer for 360 Depth Estimation Ilwi Yun Chanyong Shin Hyunku Lee Hyuk-Jae Lee Chae-Eun Rhee ViT MDE 83 19 0 16 Apr 2023
Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding Yu-Qi Yang Yu-Xiao Guo Jiangfeng Xiong Yang Liu Hao Pan Peng-Shuai Wang Xin Tong B. Guo ViT 108 88 0 14 Apr 2023
SpectFormer: Frequency and Attention is what you need in a Vision Transformer Badri N. Patro Vinay P. Namboodiri Vijay Srinivas Agneeswaran ViT 94 49 0 13 Apr 2023
RSIR Transformer: Hierarchical Vision Transformer using Random Sampling Windows and Important Region Windows Zhemin Zhang Xun Gong ViT 35 1 0 13 Apr 2023
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention Xuran Pan Tianzhu Ye Zhuofan Xia S. Song Gao Huang ViT 86 60 0 09 Apr 2023
MC-MLP:Multiple Coordinate Frames in all-MLP Architecture for Vision Zhimin Zhu Jianguo Zhao Tong Mu Yuliang Yang Mengyu Zhu 72 0 0 08 Apr 2023
PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and Progressive Shift Gaojie Wu Weishi Zheng Yutong Lu Q. Tian ViT 84 15 0 07 Apr 2023
Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal Tao Gao Yuanbo Wen Kaihao Zhang Peng Cheng Ting Chen ViT 97 5 0 06 Apr 2023
MULLER: Multilayer Laplacian Resizer for Vision Zhengzhong Tu P. Milanfar Hossein Talebi 78 4 0 06 Apr 2023
SMPConv: Self-moving Point Representations for Continuous Convolution Sanghyeon Kim Eunbyung Park 3DPC 77 13 0 05 Apr 2023
Spectral Enhanced Rectangle Transformer for Hyperspectral Image Denoising Miaoyu Li Ji Liu Ying Fu Yulun Zhang Dejing Dou ViT 55 64 0 03 Apr 2023
SVT: Supertoken Video Transformer for Efficient Video Understanding Chen-Ming Pan Rui Hou Hanchao Yu Qifan Wang Senem Velipasalar Madian Khabsa ViT 96 0 0 01 Apr 2023
Rethinking Local Perception in Lightweight Vision Transformer Qi Fan Huaibo Huang Jiyang Guan Ran He ViT 84 31 0 31 Mar 2023
Dual Cross-Attention for Medical Image Segmentation Gorkem Can Ates P. Mohan Emrah Çelik 58 85 0 30 Mar 2023
InceptionNeXt: When Inception Meets ConvNeXt Weihao Yu Pan Zhou Shuicheng Yan Xinchao Wang 191 142 0 29 Mar 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 83 41 0 27 Mar 2023
Incorporating Transformer Designs into Convolutions for Lightweight Image Super-Resolution Gang Wu Junjun Jiang Yuanchao Bai Xianming Liu SupR ViT 64 6 0 25 Mar 2023
Spherical Transformer for LiDAR-based 3D Recognition Xin Lai Yukang Chen Fanbin Lu Jianhui Liu Jiaya Jia 3DPC 116 136 0 22 Mar 2023
OcTr: Octree-based Transformer for 3D Object Detection Chao Zhou Yanan Zhang Jiaxin Chen Di Huang 3DPC ViT 94 47 0 22 Mar 2023
Robustifying Token Attention for Vision Transformers Yong Guo David Stutz Bernt Schiele ViT 121 25 0 20 Mar 2023
Dual-path Adaptation from Image to Video Transformers Jungin Park Jiyoung Lee Kwanghoon Sohn ViT 85 38 0 17 Mar 2023
BiFormer: Vision Transformer with Bi-Level Routing Attention Lei Zhu Xinjiang Wang Zhanghan Ke Wayne Zhang Rynson W. H. Lau 192 540 0 15 Mar 2023