Conformer: Local Features Coupling Global Representations for Visual Recognition

9 May 2021

Yaowei Wang

Papers citing "Conformer: Local Features Coupling Global Representations for Visual Recognition"

43 / 43 papers shown

Title
CGTrack: Cascade Gating Network with Hierarchical Feature Aggregation for UAV Tracking Weihong Li Xiaoqiong Liu Heng Fan L. Zhang 26 0 0 09 May 2025
Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement Xinghao Wang Changtao Miao Dianmo Sheng Tao Gong Qi Chu 82 0 0 26 Mar 2025
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension Ting Liu Zunnan Xu Yue Hu Liangtao Shi Zhiqiang Wang Quanjun Yin 65 2 0 03 Jan 2025
iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency Haruna Yunusa Qin Shiyin Abdulrahman Hamman Adama Chukkol Isah Bello A. Lawan Isah Bello 46 4 0 10 Jul 2024
Efficient Modulation for Vision Networks Xu Ma Xiyang Dai Jianwei Yang Bin Xiao Yinpeng Chen Yun Fu Lu Yuan 43 17 0 29 Mar 2024
HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs Ting Yao Yehao Li Yingwei Pan Tao Mei ViT 28 15 0 18 Mar 2024
CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation Woojung Han Seil Kang Kyobin Choo Seong Jae Hwang 21 0 0 05 Feb 2024
Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition Tianlin Li Yao Rong Shiao Wang Yuan Chen Zhe Wu Bowei Jiang Yonghong Tian Jin Tang ViT 81 3 0 18 Dec 2023
Windformer:Bi-Directional Long-Distance Spatio-Temporal Network For Wind Speed Prediction Xuewei Li Zewen Shang Zhiqiang Liu Jian Yu Wei Xiong Mei Yu 13 0 0 24 Nov 2023
Dual Aggregation Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu L. Kong Xiaokang Yang F. I. F. Richard Yu ViT 19 167 0 07 Aug 2023
ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading Yujia Xiao Shaofei Zhang Xi Wang Xuejiao Tan Lei He Sheng Zhao Frank Soong Tan Lee 19 5 0 03 Jul 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 47 28 0 01 Jun 2023
Radar-Camera Fusion for Object Detection and Semantic Segmentation in Autonomous Driving: A Comprehensive Review Shanliang Yao Runwei Guan Xiaoyu Huang Zhuoxiao Li Xiangyu Sha ... Eng Gee Lim H. Seo Ka Lok Man Xiaohui Zhu Yutao Yue 41 91 0 20 Apr 2023
WeakTr: Exploring Plain Vision Transformer for Weakly-supervised Semantic Segmentation Liang Zhu Yingyue Li Jiemin Fang Yan Liu Hao Xin Wenyu Liu Xinggang Wang ViT 31 28 0 03 Apr 2023
MECPformer: Multi-estimations Complementary Patch with CNN-Transformers for Weakly Supervised Semantic Segmentation Chunmeng Liu Guang-pu Li Yao Shen Ruiqi Wang ViT 27 7 0 19 Mar 2023
Spatial-Aware Token for Weakly Supervised Object Localization Ping Wu Wei Zhai Yang Cao Jiebo Luo Zhengjun Zha WSOL 34 9 0 18 Mar 2023
A Close Look at Spatial Modeling: From Attention to Convolution Xu Ma Huan Wang Can Qin Kunpeng Li Xing Zhao Jie Fu Yun Fu ViT 3DPC 25 11 0 23 Dec 2022
EIT: Enhanced Interactive Transformer Tong Zheng Bei Li Huiwen Bao Tong Xiao Jingbo Zhu 32 2 0 20 Dec 2022
DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao 38 71 0 19 Nov 2022
WSC-Trans: A 3D network model for automatic multi-structural segmentation of temporal bone CT X. Hua Z. Du Hongjian Yu Ji-Xian Ma Fanjun Zheng Cheng Zhang Qiao-Ling Lu H Zhao MedIm 13 1 0 14 Nov 2022
Automatic Diagnosis of Myocarditis Disease in Cardiac MRI Modality using Deep Transformers and Explainable Artificial Intelligence M. Jafari A. Shoeibi Navid Ghassemi Jónathan Heras Saiguang Ling ... Shuihua Wang R. Alizadehsani Juan M Gorriz U. Acharya Hamid Alinejad-Rokny MedIm 22 11 0 26 Oct 2022
Boosting vision transformers for image retrieval Chull Hwan Song Jooyoung Yoon Shunghyun Choi Yannis Avrithis ViT 34 32 0 21 Oct 2022
Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets Zhiying Lu Hongtao Xie Chuanbin Liu Yongdong Zhang ViT 25 57 0 12 Oct 2022
Centralized Feature Pyramid for Object Detection Yu Quan Dong Zhang Liyan Zhang Jinhui Tang ObjD 31 148 0 05 Oct 2022
Locality Guidance for Improving Vision Transformers on Tiny Datasets Kehan Li Runyi Yu Zhennan Wang Li-ming Yuan Guoli Song Jie Chen ViT 26 43 0 20 Jul 2022
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling Xiaosong Zhang Yunjie Tian Wei Huang QiXiang Ye Qi Dai Lingxi Xie Qi Tian 64 26 0 30 May 2022
Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection Feng Liu Xiaosong Zhang Zhiliang Peng Zonghao Guo Fang Wan Xian-Wei Ji QiXiang Ye ObjD 43 20 0 19 May 2022
MixFormer: Mixing Features across Windows and Dimensions Qiang Chen Qiman Wu Jian Wang Qinghao Hu T. Hu Errui Ding Jian Cheng Jingdong Wang MDE ViT 31 101 0 06 Apr 2022
A Transformer-Based Feature Segmentation and Region Alignment Method For UAV-View Geo-Localization Ming Dai Jian Hu Jiedong Zhuang E. Zheng ViT 45 111 0 23 Jan 2022
Linear Array Network for Low-light Image Enhancement Keqi Wang Ziteng Cui Jieru Jia Hao Xu Gene K. Wu Zhuang Yin Lu Chen Zhiguo Hu Yuhua Qian 32 3 0 22 Jan 2022
Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention Sitong Wu Tianyi Wu Hao Hao Tan G. Guo ViT 31 70 0 28 Dec 2021
MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer Tianyi Zhang Yunlu Feng Yu Zhao Guangda Fan Aiming Yang ... Fan Song Chenbin Ma Yangyang Sun Youdan Feng Guanglei Zhang ViT MedIm 14 10 0 27 Dec 2021
CT-block: a novel local and global features extractor for point cloud Shangwei Guo Jun Li Zhengchao Lai Xiantong Meng Shaokun Han ViT 3DPC 21 2 0 30 Nov 2021
On the Integration of Self-Attention and Convolution Xuran Pan Chunjiang Ge Rui Lu S. Song Guanfu Chen Zeyi Huang Gao Huang SSL 41 287 0 29 Nov 2021
SWAT: Spatial Structure Within and Among Tokens Kumara Kahatapitiya Michael S. Ryoo 25 6 0 26 Nov 2021
HRFormer: High-Resolution Transformer for Dense Prediction Yuhui Yuan Rao Fu Lang Huang Weihong Lin Chao Zhang Xilin Chen Jingdong Wang ViT 38 227 0 18 Oct 2021
Mobile-Former: Bridging MobileNet and Transformer Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Xiaoyi Dong Lu Yuan Zicheng Liu ViT 180 476 0 12 Aug 2021
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias Yufei Xu Qiming Zhang Jing Zhang Dacheng Tao ViT 65 329 0 07 Jun 2021
Dual-stream Network for Visual Recognition Mingyuan Mao Renrui Zhang Honghui Zheng Peng Gao Teli Ma Yan Peng Errui Ding Baochang Zhang Shumin Han ViT 25 63 0 31 May 2021
Visformer: The Vision-friendly Transformer Zhengsu Chen Lingxi Xie Jianwei Niu Xuefeng Liu Longhui Wei Qi Tian ViT 120 209 0 26 Apr 2021
TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization Wei Gao Fang Wan Xingjia Pan Zhiliang Peng Qi Tian Zhenjun Han Bolei Zhou QiXiang Ye ViT WSOL 30 198 0 27 Mar 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Nayeon Lee Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 290 979 0 27 Jan 2021
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,220 0 16 Nov 2016