Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

24 February 2021

Xiang Li

Ping Luo

Papers citing "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions"

50 / 604 papers shown

Title
MTLSegFormer: Multi-task Learning with Transformers for Semantic Segmentation in Precision Agriculture D. Gonçalves J. M. Junior Pedro Zamboni H. Pistori Jonathan Li Keiller Nogueira W. Gonçalves 37 5 0 04 May 2023
AutoFocusFormer: Image Segmentation off the Grid Chen Ziwen K. Patnaik Shuangfei Zhai Alvin Wan Zhile Ren A. Schwing Alex Colburn Li Fuxin 24 9 0 24 Apr 2023
Self-supervised Learning by View Synthesis Shaoteng Liu Xiangyu Zhang T. Hu Jiaya Jia 3DV ViT 40 1 0 22 Apr 2023
Region-Enhanced Feature Learning for Scene Semantic Segmentation Xin Kang Chaoqun Wang Xuejin Chen 24 3 0 15 Apr 2023
RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer Jiahao Wang Songyang Zhang Yong Liu Taiqiang Wu Yujiu Yang Xihui Liu Kai-xiang Chen Ping Luo Dahua Lin 34 20 0 12 Apr 2023
DynamicDet: A Unified Dynamic Architecture for Object Detection Zhi-Hao Lin Yongtao Wang Jinhe Zhang Xiaojie Chu ObjD 23 30 0 12 Apr 2023
PlantDet: A benchmark for Plant Detection in the Three-Rivers-Source Region Huanhuan Li Xuechao Zou Yu-an Zhang Jiangcai Zhaba Guomei Li Lamao Yongga 13 0 0 11 Apr 2023
DIR-AS: Decoupling Individual Identification and Temporal Reasoning for Action Segmentation Peiyao Wang Haibin Ling 15 2 0 04 Apr 2023
Spectral Enhanced Rectangle Transformer for Hyperspectral Image Denoising Miaoyu Li Ji Liu Ying Fu Yulun Zhang Dejing Dou ViT 13 57 0 03 Apr 2023
Learning Dynamic Style Kernels for Artistic Style Transfer Wenju Xu Chengjiang Long Yongwei Nie 23 14 0 02 Apr 2023
Vision Transformers with Mixed-Resolution Tokenization Tomer Ronen Omer Levy A. Golbert ViT 11 21 0 01 Apr 2023
SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer Xuanyao Chen Zhijian Liu Haotian Tang Li Yi Hang Zhao Song Han ViT 26 46 0 30 Mar 2023
Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models Wen Wang Yan Jiang K. Xie Zide Liu Hao Chen Yue Cao Xinlong Wang Chunhua Shen DiffM VGen 34 112 0 30 Mar 2023
DDP: Diffusion Model for Dense Visual Prediction Yuanfeng Ji Zhe Chen Enze Xie Lanqing Hong Xihui Liu Zhaoqiang Liu Tong Lu Zhenguo Li Ping Luo DiffM VLM 47 130 0 30 Mar 2023
Masked Autoencoders as Image Processors Huiyu Duan Wei Shen Xiongkuo Min Danyang Tu Long Teng Jia Wang Guangtao Zhai ViT 38 11 0 30 Mar 2023
Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation Md Mostafijur Rahman R. Marculescu MedIm ViT 24 44 0 29 Mar 2023
InceptionNeXt: When Inception Meets ConvNeXt Weihao Yu Pan Zhou Shuicheng Yan Xinchao Wang 48 119 0 29 Mar 2023
$SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding$ SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding Jae Joong Lee Bedrich Benes ViT 32 0 0 28 Mar 2023
Multi-modal learning for geospatial vegetation forecasting V. Benson Claire Robin C. Requena-Mesa Lazaro Alonso Nuno Carvalhais José A. Cortés Zhihan Gao Nora Linscheid M. Weynants Markus Reichstein 30 11 0 28 Mar 2023
SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications Abdelrahman M. Shaker Muhammad Maaz H. Rasheed Salman Khan Ming Yang F. Khan ViT 50 84 0 27 Mar 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 24 38 0 27 Mar 2023
Sector Patch Embedding: An Embedding Module Conforming to The Distortion Pattern of Fisheye Image Dian Yang Jiadong Tang Yu Gao Yi Yang M. Fu 26 1 0 26 Mar 2023
OVeNet: Offset Vector Network for Semantic Segmentation Stamatis Alexandropoulos Christos Sakaridis Petros Maragos SSeg 26 1 0 25 Mar 2023
Ensemble-based Blackbox Attacks on Dense Prediction Zikui Cai Yaoteng Tan M. Salman Asif AAML 30 14 0 25 Mar 2023
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization Pavan Kumar Anasosalu Vasu J. Gabriel Jeff J. Zhu Oncel Tuzel Anurag Ranjan ViT 37 153 0 24 Mar 2023
Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR Aneeshan Sain A. Bhunia Subhadeep Koley Pinaki Nath Chowdhury Soumitri Chattopadhyay Tao Xiang Yi-Zhe Song 28 18 0 24 Mar 2023
WM-MoE: Weather-aware Multi-scale Mixture-of-Experts for Blind Adverse Weather Removal Yulin Luo Rui Zhao Xi Wei Jinwei Chen Yijie Lu Shenghao Xie Tianyu Wang Ruiqin Xiong Ming Lu Shanghang Zhang 31 3 0 24 Mar 2023
MSFA-Frequency-Aware Transformer for Hyperspectral Images Demosaicing Haijin Zeng Kai Feng Shaoguang Huang Jingyun Liang Yongyong Chen Hongyan Zhang H. Luong Wilfried Philips 23 1 0 23 Mar 2023
Top-Down Visual Attention from Analysis by Synthesis Baifeng Shi Trevor Darrell Xin Eric Wang 25 28 0 23 Mar 2023
One-to-Few Label Assignment for End-to-End Dense Detection Shuai Li Minghan Li Ruihuang Li Chenhang He Lei Zhang 33 19 0 21 Mar 2023
Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency Vithursan Thangarasa Shreyas Saxena Abhay Gupta Sean Lie 31 3 0 21 Mar 2023
Multiscale Audio Spectrogram Transformer for Efficient Audio Classification Wenjie Zhu M. Omar 37 22 0 19 Mar 2023
MECPformer: Multi-estimations Complementary Patch with CNN-Transformers for Weakly Supervised Semantic Segmentation Chunmeng Liu Guang-pu Li Yao Shen Ruiqi Wang ViT 27 7 0 19 Mar 2023
Depth Super-Resolution from Explicit and Implicit High-Frequency Features Xin Qiao Chenyang Ge Youming Zhang Yanhui Zhou Fabio Tosi Matteo Poggi S. Mattoccia SupR MDE 29 6 0 16 Mar 2023
A Simple Baseline for Supervised Surround-view Depth Estimation Xianda Guo Wenjie Yuan Yunpeng Zhang Tian Yang Chenming Zhang Zhengbiao Zhu Long Chen MDE 44 3 0 14 Mar 2023
Co-Salient Object Detection with Co-Representation Purification Ziyue Zhu Zhao Zhang Zheng Lin Xing Sun Mingg-Ming Cheng 28 29 0 14 Mar 2023
RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose Tao Jiang Peng Lu Li Zhang Ning Ma Rui Han Chengqi Lyu Yining Li Kai-xiang Chen 3DH 45 158 0 13 Mar 2023
SSGD: A smartphone screen glass dataset for defect detection Haonan Han Rui Yang Shuyan Li R. Hu Xiu Li 19 10 0 12 Mar 2023
Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative Keypoints Chenjie Cao Yanwei Fu ViT 28 9 0 06 Mar 2023
Efficient and Explicit Modelling of Image Hierarchies for Image Restoration Yawei Li Yuchen Fan Xiaoyu Xiang D. Demandolx Rakesh Ranjan Radu Timofte Luc Van Gool 26 173 0 01 Mar 2023
Human MotionFormer: Transferring Human Motions with Vision Transformers Hongyu Liu Xintong Han Chengbin Jin Lihui Qian Huawei Wei ... Faqiang Wang Haoye Dong Yibing Song Jia Xu Qifeng Chen 16 10 0 22 Feb 2023
Device Tuning for Multi-Task Large Model Penghao Jiang Xuanchen Hou Y. Zhou 26 0 0 21 Feb 2023
LIT-Former: Linking In-plane and Through-plane Transformers for Simultaneous CT Image Denoising and Deblurring Zhihao Chen Chuang Niu Qi Gao Ge Wang Hongming Shan MedIm ViT 3DV 36 20 0 21 Feb 2023
Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey Kunlin Wang Zi Wang Zhang Li Ang Su Xichao Teng Minhao Liu Qifeng Yu Qifeng Yu ObjD 89 9 0 21 Feb 2023
MedViT: A Robust Vision Transformer for Generalized Medical Image Classification Omid Nejati Manzari Hamid Ahmadabadi Hossein Kashiani S. B. Shokouhi Ahmad Ayatollahi ViT MedIm 34 177 0 19 Feb 2023
Hyneter: Hybrid Network Transformer for Object Detection Dong Chen Duoqian Miao Xuepeng Zhao ViT 31 3 0 18 Feb 2023
Transformadores: Fundamentos teoricos y Aplicaciones J. D. L. Torre 78 0 0 18 Feb 2023
Efficiency 360: Efficient Vision Transformers Badri N. Patro Vijay Srinivas Agneeswaran 26 6 0 16 Feb 2023
Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection Hao Chen Feihong Shen ViT 36 0 0 16 Feb 2023
Semantic Image Segmentation: Two Decades of Research G. Csurka Riccardo Volpi Boris Chidlovskii 3DV 35 50 0 13 Feb 2023