Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

24 February 2021

Xiang Li

Ping Luo

Papers citing "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions"

50 / 624 papers shown

Title
Dilated Neighborhood Attention Transformer Ali Hassani Humphrey Shi ViT MedIm 33 68 0 29 Sep 2022
IoU-Enhanced Attention for End-to-End Task Specific Object Detection Jing Zhao Shengjian Wu Li Sun Qingli Li 33 6 0 21 Sep 2022
Dynamic Graph Message Passing Networks for Visual Recognition Li Zhang Mohan Chen Anurag Arnab Xiangyang Xue Philip Torr GNN 29 1 0 20 Sep 2022
Graph Reasoning Transformer for Image Parsing Dong Zhang Jinhui Tang Kwang-Ting Cheng ViT 24 16 0 20 Sep 2022
Axially Expanded Windows for Local-Global Interaction in Vision Transformers Zhemin Zhang Xun Gong ViT 18 1 0 19 Sep 2022
LRT: An Efficient Low-Light Restoration Transformer for Dark Light Field Images Shansi Zhang Nan Meng E. Lam ViT 47 20 0 06 Sep 2022
Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the Best of Both Students Xueye Zheng Yuan Luo Hao Wang Chong Fu Lin Wang ViT 41 18 0 06 Sep 2022
Transformers in Remote Sensing: A Survey Abdulaziz Amer Aleissaee Amandeep Kumar Rao Muhammad Anwer Salman Khan Hisham Cholakkal Guisong Xia Fahad Shahbaz Khan ViT 57 175 0 02 Sep 2022
MRL: Learning to Mix with Attention and Convolutions Shlok Mohta Hisahiro Suganuma Yoshiki Tanaka 28 2 0 30 Aug 2022
SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution Dafeng Zhang Feiyu Huang Shizhuo Liu Xiaobing Wang Zhezhu Jin 24 90 0 24 Aug 2022
Efficient Attention-free Video Shift Transformers Adrian Bulat Brais Martínez Georgios Tzimiropoulos ViT 29 1 0 23 Aug 2022
Towards Accurate Facial Landmark Detection via Cascaded Transformers Hui Li Zidong Guo Seon-Min Rhee S. Han Jae-Joon Han CVBM ViT 33 36 0 23 Aug 2022
Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective Gihyun Kim Juyeop Kim Jong-Seok Lee AAML ViT 24 4 0 20 Aug 2022
Improved Image Classification with Token Fusion Keong-Hun Choi Jin-Woo Kim Yaolong Wang J. Ha ViT 19 0 0 19 Aug 2022
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes Yu-Huan Wu Da Zhang Le Zhang Xin Zhan Dengxin Dai Yun-Hai Liu Ming-Ming Cheng 3DPC 26 2 0 18 Aug 2022
MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer Chaoqiang Zhao Youming Zhang Matteo Poggi Fabio Tosi Xianda Guo Zheng Zhu Guan Huang Yang Tang S. Mattoccia ViT MDE 42 175 0 06 Aug 2022
TransMatting: Enhancing Transparent Objects Matting with Transformers Huanqia Cai Fanglei Xue Lele Xu Lili Guo ViT 11 20 0 05 Aug 2022
TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object Detection Zhipeng Luo Gongjie Zhang Changqing Zhou Ti Liu Shijian Lu Liang Pan 3DPC ViT 48 9 0 04 Aug 2022
DropKey Bonan li Yinhan Hu Xuecheng Nie Congying Han Xiangjian Jiang Tiande Guo Luoqi Liu 15 11 0 04 Aug 2022
MVSFormer: Multi-View Stereo by Learning Robust Image Features and Temperature-based Depth Chenjie Cao Xinlin Ren Yanwei Fu 31 47 0 04 Aug 2022
Making the Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain Adaptation Wen-hui Ma Jinming Zhang Shuang Li Chi Harold Liu Yulin Wang Wei Li 26 14 0 02 Aug 2022
Understanding Adversarial Robustness of Vision Transformers via Cauchy Problem Zheng Wang Wenjie Ruan ViT 42 8 0 01 Aug 2022
Cross Attention Based Style Distribution for Controllable Person Image Synthesis Xinyue Zhou M. Yin Xinyuan Chen Li Sun Changxin Gao Qingli Li DiffM 14 54 0 01 Aug 2022
A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond Chaoning Zhang Chenshuang Zhang Junha Song John Seon Keun Yi Kang Zhang In So Kweon SSL 57 71 0 30 Jul 2022
ScaleFormer: Revisiting the Transformer-based Backbones from a Scale-wise Perspective for Medical Image Segmentation Huimin Huang Shiao Xie Lanfen Lin Yutaro Iwamoto X. Han Yen-Wei Chen Ruofeng Tong ViT MedIm 27 45 0 29 Jul 2022
3D Siamese Transformer Network for Single Object Tracking on Point Clouds Le Hui Lingpeng Wang Ling-Yu Tang Kaihao Lan Jin Xie Jian Yang ViT 3DPC 31 60 0 25 Jul 2022
Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer Yingyi Chen Xiaoke Shen Yahui Liu Qinghua Tao Johan A. K. Suykens AAML ViT 28 22 0 25 Jul 2022
Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation Jiaming Zhang Kailun Yang Haowen Shi Simon Reiß Kunyu Peng Chaoxiang Ma Haodong Fu Philip H. S. Torr Kaiwei Wang Rainer Stiefelhagen ViT MDE 31 36 0 25 Jul 2022
Improved Super Resolution of MR Images Using CNNs and Vision Transformers Dwarikanath Mahapatra SupR ViT MedIm 27 5 0 24 Jul 2022
High-Resolution Swin Transformer for Automatic Medical Image Segmentation Chen Wei Shenghan Ren Kaitai Guo Haihong Hu Jimin Liang ViT OOD MedIm 22 36 0 23 Jul 2022
Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation Sunghwan Hong Seokju Cho Jisu Nam Stephen Lin Seung Wook Kim ViT 24 123 0 22 Jul 2022
Geodesic-Former: a Geodesic-Guided Few-shot 3D Point Cloud Instance Segmenter T. Ngo Khoi Duc Minh Nguyen 3DPC 19 4 0 22 Jul 2022
Towards Efficient Adversarial Training on Vision Transformers Boxi Wu Jindong Gu Zhifeng Li Deng Cai Xiaofei He Wei Liu ViT AAML 46 38 0 21 Jul 2022
Locality Guidance for Improving Vision Transformers on Tiny Datasets Kehan Li Runyi Yu Zhennan Wang Li-ming Yuan Guoli Song Jie Chen ViT 32 44 0 20 Jul 2022
EleGANt: Exquisite and Locally Editable GAN for Makeup Transfer Chenyu Yang W. He Yingqing Xu Yang Gao DiffM 19 26 0 20 Jul 2022
Vision Transformers: From Semantic Segmentation to Dense Prediction Li Zhang Jiachen Lu Sixiao Zheng Xinxuan Zhao Xiatian Zhu Yanwei Fu Tao Xiang Jianfeng Feng Philip H. S. Torr ViT 27 7 0 19 Jul 2022
HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation Moein Heidari A. Kazerouni Milad Soltany Kadarvish Reza Azad Ehsan Khodapanah Aghdam Julien Cohen-Adad Dorit Merhof MedIm ViT 25 178 0 18 Jul 2022
TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers Jihao Liu B. Liu Hang Zhou Hongsheng Li Yu Liu ViT 24 66 0 18 Jul 2022
Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection Junpu Wang Guili Xu Fuju Yan Jinjin Wang Zhengsheng Wang ViT MedIm 26 66 0 17 Jul 2022
Structural Prior Guided Generative Adversarial Transformers for Low-Light Image Enhancement Cong Wang Jin-shan Pan Xiaomei Wu ViT 41 4 0 16 Jul 2022
Weakly Supervised Video Salient Object Detection via Point Supervision Shuyong Gao Hao Xing Wei Zhang Yan Wang Qianyu Guo Wenqiang Zhang 33 24 0 15 Jul 2022
Deepfake Video Detection with Spatiotemporal Dropout Transformer Daichi Zhang Fanzhao Lin Yingying Hua Pengju Wang Dan Zeng Shiming Ge ViT 25 38 0 14 Jul 2022
Eliminating Gradient Conflict in Reference-based Line-Art Colorization Zekun Li Zhengyang Geng Zhao Kang Wenyu Chen Yibo Yang 21 35 0 13 Jul 2022
Pyramid Transformer for Traffic Sign Detection Omid Nejati Manzari A. Boudesh S. B. Shokouhi ViT 19 12 0 13 Jul 2022
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image Kai-En Lin Yen-Chen Lin Wei-Sheng Lai Nayeon Lee Yichang Shih R. Ramamoorthi ViT 24 112 0 12 Jul 2022
MSP-Former: Multi-Scale Projection Transformer for Single Image Desnowing Sixiang Chen Tian-Chun Ye Yun-Peng Liu Taodong Liao Y. Ye Erkang Chen Peng Chen ViT 28 51 0 12 Jul 2022
Tracking Objects as Pixel-wise Distributions Zelin Zhao Ze Wu Yueqing Zhuang Boxun Li Jiaya Jia VOT 31 54 0 12 Jul 2022
Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios Jiashi Li Xin Xia W. Li Huixia Li Xing Wang Xuefeng Xiao Rui Wang Min Zheng Xin Pan ViT 17 149 0 12 Jul 2022
Dual Vision Transformer Ting Yao Yehao Li Yingwei Pan Yu Wang Xiaoping Zhang Tao Mei ViT 143 75 0 11 Jul 2022
OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers Jialun Pei Tianyang Cheng Deng-Ping Fan He Tang Chuanbo Chen Luc Van Gool ViT 18 55 0 05 Jul 2022