Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

24 February 2021

Xiang Li

Ping Luo

Papers citing "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions"

50 / 604 papers shown

Title
Neighborhood Attention Transformer Ali Hassani Steven Walton Jiacheng Li Shengjia Li Humphrey Shi ViT AI4TS 36 253 0 14 Apr 2022
3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of Transformer-MLP Paradigm for Dense Prediction in Medical Volume Jianye Pang Cheng Jiang Yihao Chen Jianbo Chang M. Feng Renzhi Wang Jianhua Yao ViT MedIm 28 11 0 14 Apr 2022
TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation Wenqiang Zhang Zilong Huang Guozhong Luo Tao Chen Xinggang Wang Wenyu Liu Gang Yu Chunhua Shen ViT 22 199 0 12 Apr 2022
DaViT: Dual Attention Vision Transformers Mingyu Ding Bin Xiao Noel Codella Ping Luo Jingdong Wang Lu Yuan ViT 48 240 0 07 Apr 2022
Learning Local and Global Temporal Contexts for Video Semantic Segmentation Guolei Sun Yun Liu Henghui Ding Min Wu Luc Van Gool 30 32 0 07 Apr 2022
Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection Yuxin Fang Shusheng Yang Shijie Wang Yixiao Ge Ying Shan Xinggang Wang 31 55 0 06 Apr 2022
An Empirical Study of Remote Sensing Pretraining Di Wang Jing Zhang Bo Du Guisong Xia Dacheng Tao EDL 36 190 0 06 Apr 2022
MixFormer: Mixing Features across Windows and Dimensions Qiang Chen Qiman Wu Jian Wang Qinghao Hu T. Hu Errui Ding Jian Cheng Jingdong Wang MDE ViT 31 101 0 06 Apr 2022
BatchFormerV2: Exploring Sample Relationships for Dense Representation Learning Zhi Hou Baosheng Yu Chaoyue Wang Yibing Zhan Dacheng Tao ViT 29 11 0 04 Apr 2022
Improving Vision Transformers by Revisiting High-frequency Components Jiawang Bai Liuliang Yuan Shutao Xia Shuicheng Yan Zhifeng Li Wei Liu ViT 16 90 0 03 Apr 2022
ReSTR: Convolution-free Referring Image Segmentation Using Transformers N. Kim Dongwon Kim Cuiling Lan Wenjun Zeng Suha Kwak 24 136 0 31 Mar 2022
InstaFormer: Instance-Aware Image-to-Image Translation with Transformer Soohyun Kim Jongbeom Baek Jihye Park Gyeongnyeon Kim Seung Wook Kim ViT 39 47 0 30 Mar 2022
VPTR: Efficient Transformers for Video Prediction Xi Ye Guillaume-Alexandre Bilodeau ViT 32 18 0 29 Mar 2022
Integrative Few-Shot Learning for Classification and Segmentation Dahyun Kang Minsu Cho VLM 37 59 0 29 Mar 2022
SepViT: Separable Vision Transformer Wei Li Xing Wang Xin Xia Jie Wu Jiashi Li Xuefeng Xiao Min Zheng Shiping Wen ViT 26 40 0 29 Mar 2022
Few-Shot Object Detection with Fully Cross-Transformer G. Han Jiawei Ma Shiyuan Huang Long Chen Shih-Fu Chang 31 130 0 28 Mar 2022
Semantic Segmentation by Early Region Proxy Yifan Zhang Bo Pang Cewu Lu ViT 52 29 0 26 Mar 2022
Transformers Meet Visual Learning Understanding: A Comprehensive Review Yuting Yang Licheng Jiao Xuantong Liu F. Liu Shuyuan Yang Zhixi Feng Xu Tang ViT MedIm 27 28 0 24 Mar 2022
Beyond Fixation: Dynamic Window Visual Transformer Pengzhen Ren Changlin Li Guangrun Wang Yun Xiao Qing Du Xiaodan Liang Qing Du Xiaodan Liang Xiaojun Chang ViT 28 32 0 24 Mar 2022
Training-free Transformer Architecture Search Qinqin Zhou Kekai Sheng Xiawu Zheng Ke Li Xing Sun Yonghong Tian Jie Chen Rongrong Ji ViT 34 46 0 23 Mar 2022
Focal Modulation Networks Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao 3DPC 33 263 0 22 Mar 2022
High-resolution Iterative Feedback Network for Camouflaged Object Detection Xiaobin Hu Deng-Ping Fan Xuebin Qin Hang Dai Wenqi Ren Ying Tai Chengjie Wang Ling Shao 54 109 0 22 Mar 2022
ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer Rui Yang Hailong Ma Jie Wu Yansong Tang Xuefeng Xiao Min Zheng Xiu Li ViT 19 53 0 21 Mar 2022
Upsampling Autoencoder for Self-Supervised Point Cloud Learning Cheng Zhang Jian Shi X. Deng Zizhao Wu 3DPC 27 8 0 21 Mar 2022
End-to-End Video Text Spotting with Transformer Weijia Wu Yuanqiang Cai Chunhua Shen Debing Zhang Ying Fu Hong Zhou Ping Luo ViT 53 24 0 20 Mar 2022
HIPA: Hierarchical Patch Transformer for Single Image Super Resolution Qing Cai Yiming Qian Jinxing Li Junjie Lv Yee-Hong Yang Feng Wu Dafan Zhang 22 28 0 19 Mar 2022
A Dual Weighting Label Assignment Scheme for Object Detection Shuai Li Chenhang He Ruihuang Li Lei Zhang 30 79 0 18 Mar 2022
MatchFormer: Interleaving Attention in Transformers for Feature Matching Qing Wang Jiaming Zhang Kailun Yang Kunyu Peng Rainer Stiefelhagen ViT 44 141 0 17 Mar 2022
Towards Data-Efficient Detection Transformers Wen Wang Jing Zhang Yang Cao Yongliang Shen Dacheng Tao ViT 23 59 0 17 Mar 2022
Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot Learning Yang He Weihan Liang Dongyang Zhao Hong-Yu Zhou Weifeng Ge Yizhou Yu Wenqiang Zhang ViT 30 45 0 17 Mar 2022
WegFormer: Transformers for Weakly Supervised Semantic Segmentation Chunmeng Liu Enze Xie Wenjia Wang Wenhai Wang Guangya Li Ping Luo ViT 24 6 0 16 Mar 2022
HUMUS-Net: Hybrid unrolled multi-scale network architecture for accelerated MRI reconstruction Zalan Fabian Berk Tinaz Mahdi Soltanolkotabi 33 50 0 15 Mar 2022
InvPT: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding Hanrong Ye Dan Xu ViT 21 84 0 15 Mar 2022
Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic Segmentation Runfa Chen Yu Rong Shangmin Guo Jiaqi Han Gang Hua Tingyang Xu Wenbing Huang ViT 15 20 0 15 Mar 2022
Deep Transformers Thirst for Comprehensive-Frequency Data R. Xia Chao Xue Boyu Deng Fang Wang Jingchao Wang ViT 25 0 0 14 Mar 2022
RecursiveMix: Mixed Learning with History Lingfeng Yang Xiang Li Borui Zhao Renjie Song Jian Yang VLM 29 18 0 14 Mar 2022
Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs Xiaohan Ding Xinming Zhang Yi Zhou Jungong Han Guiguang Ding Jian Sun VLM 49 528 0 13 Mar 2022
Masked Autoencoders for Point Cloud Self-supervised Learning Yatian Pang Wenxiao Wang Francis E. H. Tay Wei Liu Yonghong Tian Liuliang Yuan 3DPC ViT 33 454 0 13 Mar 2022
The Principle of Diversity: Training Stronger Vision Transformers Calls for Reducing All Levels of Redundancy Tianlong Chen Zhenyu (Allen) Zhang Yu Cheng Ahmed Hassan Awadallah Zhangyang Wang ViT 41 37 0 12 Mar 2022
Representation Compensation Networks for Continual Semantic Segmentation Chang-Bin Zhang Jianqiang Xiao Xialei Liu Ying-Cong Chen Mingg-Ming Cheng SSeg CLL 37 93 0 10 Mar 2022
Backbone is All Your Need: A Simplified Architecture for Visual Object Tracking Boyu Chen Peixia Li Lei Bai Leixian Qiao Qiuhong Shen Bo-wen Li Weihao Gan Wei Wu Wanli Ouyang ViT VOT 22 182 0 10 Mar 2022
CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers Jiaming Zhang Huayao Liu Kailun Yang Xinxin Hu Ruiping Liu Rainer Stiefelhagen ViT 34 299 0 09 Mar 2022
CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity Prediction Zhuoran Song Yihong Xu Zhezhi He Li Jiang Naifeng Jing Xiaoyao Liang ViT 32 39 0 09 Mar 2022
Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group Attention Kai Liu Tianyi Wu Cong Liu Guodong Guo ViT 41 17 0 08 Mar 2022
CrowdFormer: Weakly-supervised Crowd counting with Improved Generalizability Siddharth Singh Savner Vivek Kanhangad ViT 19 31 0 07 Mar 2022
Stepwise Feature Fusion: Local Guides Global Jinfeng Wang Qiming Huang Feilong Tang Jia Meng Jionglong Su Sifan Song ViT MedIm 24 179 0 07 Mar 2022
LGT-Net: Indoor Panoramic Room Layout Estimation with Geometry-Aware Transformer Network Zhigang Jiang Zhongzheng Xiang Jinhua Xu Mingbi Zhao ViT 3DV 27 34 0 03 Mar 2022
Correlation-Aware Deep Tracking Fei Xie Chunyu Wang Guangting Wang Yue Cao Wankou Yang Wenjun Zeng VOT 29 119 0 03 Mar 2022
Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic Segmentation Jiaming Zhang Kailun Yang Chaoxiang Ma Simon Reiß Kunyu Peng Rainer Stiefelhagen ViT 29 74 0 02 Mar 2022
3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification Dening Lu Qian Xie Linlin Xu Jonathan Li 3DV 19 68 0 02 Mar 2022