v1v2v3 (latest)

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

1 July 2021

Jianmin Bao

Lu Yuan

ArXiv (abs)PDF HTML Github (569★)

Papers citing "CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows"

50 / 440 papers shown

Title
Polyline Path Masked Attention for Vision Transformer Zhongchen Zhao Chaodong Xiao H. Lin Qi Xie Lei Zhang Deyu Meng Mamba 44 0 0 19 Jun 2025
RoadFormer : Local-Global Feature Fusion for Road Surface Classification in Autonomous Driving Tianze Wang Zhang Zhang Chao Sun 53 0 0 03 Jun 2025
S2AFormer: Strip Self-Attention for Efficient Vision Transformer Guoan Xu Wenfeng Huang Wenjing Jia Jiamao Li Guangwei Gao Guo-Jun Qi 73 0 0 28 May 2025
Fully Spiking Neural Networks for Unified Frame-Event Object Tracking Jingjun Yang Liangwei Fan Jinpu Zhang Xiangkai Lian Hui Shen D. Hu 19 0 0 27 May 2025
AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer Jiquan Shan Junxiao Wang Lifeng Zhao Liang Cai Hongyuan Zhang Ioannis Liritzis ViT 245 0 0 22 May 2025
DRRNet: Macro-Micro Feature Fusion and Dual Reverse Refinement for Camouflaged Object Detection Jianlin Sun Xiaolin Fang Juwei Guan Dongdong Gui Teqi Wang Tongxin Zhu 133 0 0 14 May 2025
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao Wenyuan Xu Shibiao Xu ViT 527 0 0 06 May 2025
A Review of YOLOv12: Attention-Based Enhancements vs. Previous Versions Rahima Khanam Muhammad Hussain 98 0 0 16 Apr 2025
Crafting Query-Aware Selective Attention for Single Image Super-Resolution Junyoung Kim Youngrok Kim Siyeol Jung Donghyun Min 91 0 0 09 Apr 2025
A Robust Real-Time Lane Detection Method with Fog-Enhanced Feature Fusion for Foggy Conditions Ronghui Zhang Yuhang Ma Tengfei Li Ziyu Lin Yueying Wu Junzhou Chen Lin Zhang Jia Hu Tony Z. Qiu Konghui Guo 152 0 0 08 Apr 2025
DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation Bo Yin Jiao-Long Cao Ming-Ming Cheng Qibin Hou 3DPC MDE 95 0 0 07 Apr 2025
HGFormer: Topology-Aware Vision Transformer with HyperGraph Learning Hao Wang Shuo Zhang Biao Leng ViT 284 1 0 03 Apr 2025
Spectral-Adaptive Modulation Networks for Visual Perception Guhnoo Yun J. Yoo Kijung Kim Jeongho Lee Paul Hongsuck Seo Dong Hwan Kim 126 0 0 31 Mar 2025
Efficient Token Compression for Vision Transformer with Spatial Information Preserved Junzhu Mao Yang Shen Jinyang Guo Yazhou Yao Xiansheng Hua ViT 143 0 0 30 Mar 2025
Progressive Focused Transformer for Single Image Super-Resolution Wei Long Xingyu Zhou Leheng Zhang Shuhang Gu ViT 128 0 0 26 Mar 2025
Panoramic Distortion-Aware Tokenization for Person Detection and Localization Using Transformers in Overhead Fisheye Images Nobuhiko Wakai Satoshi Sato Yasunori Ishii Takayoshi Yamashita 122 0 0 18 Mar 2025
FMNet: Frequency-Assisted Mamba-Like Linear Attention Network for Camouflaged Object Detection Ming Deng Sijin Sun Zihao Li Xiaochuan Hu Xing Wu Mamba 101 1 0 14 Mar 2025
CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution Xin Liu Jie Liu J. Tang Gangshan Wu SupR ViT 96 0 0 10 Mar 2025
ColFigPhotoAttnNet: Reliable Finger Photo Presentation Attack Detection Leveraging Window-Attention on Color Spaces Anudeep Vurity Emanuela Marasco Raghavendra Ramachandra Jongwoo Park AAML 75 1 0 07 Mar 2025
Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation K. A. Kinfu René Vidal ViT 62 0 0 28 Feb 2025
SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit Youbing Hu Yun Cheng Anqi Lu Dawei Wei Zhijun Li 92 0 0 27 Feb 2025
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba Xiuwei Chen Sihao Lin Xiao Dong Zhenpeng Chen Meng Cao Jiawei Han Hang Xu Xiaodan Liang Mamba 124 1 0 24 Feb 2025
RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention Bochao Zou Zizheng Guo Jiansheng Chen Junbao Zhuo Weiran Huang Huimin Ma ViT AI4TS 168 1 0 21 Feb 2025
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis Amir Hosein Fadaei M. Dehaqani 95 0 0 11 Feb 2025
All-in-One Image Compression and Restoration Huimin Zeng Jiacheng Li Ziqiang Zheng Zhiwei Xiong 142 1 0 05 Feb 2025
V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection Sichao Wang Chuang Zhang Ming Yuan Qing Xu Lei He Jianqiang Wang 162 1 0 28 Jan 2025
iFormer: Integrating ConvNet and Transformer for Mobile Application Chuanyang Zheng ViT 179 0 0 26 Jan 2025
Parallel Sequence Modeling via Generalized Spatial Propagation Network Hongjun Wang Wonmin Byeon Jiarui Xu Liang Feng Ka Chun Cheung Xiaolong Wang Kai Han Jan Kautz Sifei Liu 410 1 0 21 Jan 2025
VMamba: Visual State Space Model Yue Liu Yunjie Tian Yuzhong Zhao Hongtian Yu Lingxi Xie Yaowei Wang Qixiang Ye Jianbin Jiao Yunfan Liu Mamba 324 734 0 31 Dec 2024
ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition Seungdong Yoa Seungjun Lee Hyeseung Cho Bumsoo Kim Woohyung Lim ViT 112 0 0 21 Dec 2024
Bridging the Divide: Reconsidering Softmax and Linear Attention Dongchen Han Yifan Pu Zhuofan Xia Yizeng Han Xuran Pan Xiu Li Jiwen Lu Shiji Song Gao Huang 136 12 0 09 Dec 2024
Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images Xiangyong Lu Masanori Suganuma Takayuki Okatani 150 0 0 03 Dec 2024
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction Yuan Zhou Qingshan Xu Jiequan Cui Junbao Zhou Jing Zhang Richang Hong Han Zhang ViT 127 0 0 25 Nov 2024
Symmetric Perception and Ordinal Regression for Detecting Scoliosis Natural Image Xiaojia Zhu Rui Chen Xiaoqi Guo Z. Shao Yuhu Dai Ming Zhang Chuandong Lang 113 0 0 24 Nov 2024
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim 235 3 0 22 Nov 2024
Breaking the Low-Rank Dilemma of Linear Attention Qihang Fan Huaibo Huang Ran He 111 2 0 12 Nov 2024
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation Anil Kag Huseyin Coskun Jierun Chen Junli Cao Willi Menapace Aliaksandr Siarohin Sergey Tulyakov Jian Ren 95 3 0 07 Nov 2024
MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation Yufeng Jiang Zongxi Li Xiangyan Chen Haoran Xie Jing Cai Mamba 87 1 0 31 Oct 2024
UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration Runshi Zhang Hao Mo Junchen Wang Bimeng Jie Yang He Nenghao Jin Liang Zhu ViT MedIm 69 4 0 27 Oct 2024
Bi-temporal Gaussian Feature Dependency Guided Change Detection in Remote Sensing Images Yi Xiao B. Luo Jun Liu X. Su Wei Wang 102 0 0 12 Oct 2024
DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention Nguyen Huu Bao Long Chenyu Zhang Yuzhi Shi Tsubasa Hirakawa Takayoshi Yamashita Tohgoroh Matsui H. Fujiyoshi 68 2 0 11 Oct 2024
HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections Jiaxing Hao Yanxi Wang Zhigang Chang Hongmin Gao Zihao Cheng Chen Wu Xin Zhao Peiye Fang Rachmat Muwardi ViT 104 0 0 11 Oct 2024
BA-Net: Bridge Attention in Deep Neural Networks Ronghui Zhang Runzong Zou Yue Zhao Zirui Zhang Junzhou Chen Yue Cao Chuan Hu Houbing Song 62 1 0 10 Oct 2024
MMFNet: Multi-Scale Frequency Masking Neural Network for Multivariate Time Series Forecasting Aitian Ma Dongsheng Luo Mo Sha AI4TS 55 1 0 02 Oct 2024
RingMo-Aerial: An Aerial Remote Sensing Foundation Model With Affine Transformation Contrastive Learning Wenhui Diao Haichen Yu Kaiyue Kang Tong Ling Di Liu ... Hanbo Bi Libo Ren Xuexue Li Yongqiang Mao Xian Sun 274 1 0 20 Sep 2024
SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks Meng Lou Yunxiang Fu Yizhou Yu Mamba 124 5 0 15 Sep 2024
SDformer: Efficient End-to-End Transformer for Depth Completion Jian Qian Miao Sun Ashley Lee Jie Li Shenglong Zhuo Patrick Chiang ViT MDE 127 3 0 12 Sep 2024
Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU Zhenyu Ning Jieru Zhao Qihao Jin Wenchao Ding Minyi Guo 43 7 0 11 Sep 2024
Brain-Inspired Stepwise Patch Merging for Vision Transformers Yonghao Yu Dongcheng Zhao Guobin Shen Yiting Dong Yi Zeng 93 0 0 11 Sep 2024
MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition Mallika Garg Debashis Ghosh P. M. Pradhan ViT 72 1 0 05 Sep 2024