Vision Transformer Adapter for Dense Predictions

17 May 2022

Yu Qiao

Papers citing "Vision Transformer Adapter for Dense Predictions"

50 / 120 papers shown

Title
SeMask: Semantically Masked Transformers for Semantic Segmentation Jitesh Jain Anukriti Singh Nikita Orlov Zilong Huang Jiachen Li Steven Walton Humphrey Shi ViT 68 97 0 23 Dec 2021
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation Wuyang Chen Xianzhi Du Fan Yang Lucas Beyer Xiaohua Zhai ... Huizhong Chen Jing Li Xiaodan Song Zhangyang Wang Denny Zhou ViT 68 22 0 17 Dec 2021
VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks Yi-Lin Sung Jaemin Cho Joey Tianyi Zhou VLM VPVLM 105 354 0 13 Dec 2021
Masked-attention Mask Transformer for Universal Image Segmentation Bowen Cheng Ishan Misra Alex Schwing Alexander Kirillov Rohit Girdhar ISeg 248 2,364 0 02 Dec 2021
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Yanghao Li Chaoxia Wu Haoqi Fan K. Mangalam Bo Xiong Jitendra Malik Christoph Feichtenhofer ViT 146 690 0 02 Dec 2021
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks Xizhou Zhu Jinguo Zhu Hao Li Xiaoshi Wu Xiaogang Wang Hongsheng Li Xiaohua Wang Jifeng Dai 104 133 0 02 Dec 2021
Benchmarking Detection Transfer Learning with Vision Transformers Yanghao Li Saining Xie Xinlei Chen Piotr Dollar Kaiming He Ross B. Girshick 69 168 0 22 Nov 2021
Swin Transformer V2: Scaling Up Capacity and Resolution Ze Liu Han Hu Yutong Lin Zhuliang Yao Zhenda Xie ... Yue Cao Zheng Zhang Li Dong Furu Wei B. Guo ViT 209 1,813 0 18 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 460 7,757 0 11 Nov 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 265 400 0 06 Nov 2021
CLIP-Adapter: Better Vision-Language Models with Feature Adapters Peng Gao Shijie Geng Renrui Zhang Teli Ma Rongyao Fang Yongfeng Zhang Hongsheng Li Yu Qiao VLM CLIP 287 1,042 0 09 Oct 2021
Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers Zhiqi Li Wenhai Wang Enze Xie Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo Tong Lu ViT 134 140 0 08 Sep 2021
FaPN: Feature-aligned Pyramid Network for Dense Image Prediction Shihua Huang Zhichao Lu Ran Cheng Cheng He 40 207 0 16 Aug 2021
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows Xiaoyi Dong Jianmin Bao Dongdong Chen Weiming Zhang Nenghai Yu Lu Yuan Dong Chen B. Guo ViT 145 982 0 01 Jul 2021
Focal Self-attention for Local-Global Interactions in Vision Transformers Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao ViT 78 435 0 01 Jul 2021
CBNet: A Composite Backbone Network Architecture for Object Detection Tingting Liang Xiao Chu Yudong Liu Yongtao Wang Zhi Tang Wei Chu Jingdong Chen Haibin Ling ObjD 53 163 0 01 Jul 2021
PVT v2: Improved Baselines with Pyramid Vision Transformer Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT AI4TS 103 1,667 0 25 Jun 2021
Video Swin Transformer Ze Liu Jia Ning Yue Cao Yixuan Wei Zheng Zhang Stephen Lin Han Hu ViT 100 1,482 0 24 Jun 2021
P2T: Pyramid Pooling Transformer for Scene Understanding Yu-Huan Wu Yun-Hai Liu Xin Zhan Mingg-Ming Cheng ViT 85 230 0 22 Jun 2021
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers Andreas Steiner Alexander Kolesnikov Xiaohua Zhai Ross Wightman Jakob Uszkoreit Lucas Beyer ViT 107 633 0 18 Jun 2021
XCiT: Cross-Covariance Image Transformers Alaaeldin El-Nouby Hugo Touvron Mathilde Caron Piotr Bojanowski Matthijs Douze ... Ivan Laptev Natalia Neverova Gabriel Synnaeve Jakob Verbeek Hervé Jégou ViT 136 511 0 17 Jun 2021
Dynamic Head: Unifying Object Detection Heads with Attentions Xiyang Dai Yinpeng Chen Bin Xiao Dongdong Chen Mengchen Liu Lu Yuan Lei Zhang 66 582 0 15 Jun 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 268 2,826 0 15 Jun 2021
Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer Zilong Huang Youcheng Ben Guozhong Luo Pei Cheng Gang Yu Bin-Bin Fu ViT 66 183 0 07 Jun 2021
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 285 5,030 0 31 May 2021
Segmenter: Transformer for Semantic Segmentation Robin Strudel Ricardo Garcia Pinel Ivan Laptev Cordelia Schmid ViT 203 1,467 0 12 May 2021
Conformer: Local Features Coupling Global Representations for Visual Recognition Zhiliang Peng Wei Huang Shanzhi Gu Lingxi Xie Yaowei Wang Jianbin Jiao QiXiang Ye ViT 63 543 0 09 May 2021
Twins: Revisiting the Design of Spatial Attention in Vision Transformers Xiangxiang Chu Zhi Tian Yuqing Wang Bo Zhang Haibing Ren Xiaolin K. Wei Huaxia Xia Chunhua Shen ViT 82 1,020 0 28 Apr 2021
Going deeper with Image Transformers Hugo Touvron Matthieu Cord Alexandre Sablayrolles Gabriel Synnaeve Hervé Jégou ViT 154 1,014 0 31 Mar 2021
CvT: Introducing Convolutions to Vision Transformers Haiping Wu Bin Xiao Noel Codella Mengchen Liu Xiyang Dai Lu Yuan Lei Zhang ViT 152 1,910 0 29 Mar 2021
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin B. Guo ViT 447 21,439 0 25 Mar 2021
Vision Transformers for Dense Prediction René Ranftl Alexey Bochkovskiy V. Koltun ViT MDE 136 1,734 0 24 Mar 2021
Perceiver: General Perception with Iterative Attention Andrew Jaegle Felix Gimeno Andrew Brock Andrew Zisserman Oriol Vinyals João Carreira VLM ViT MDE 194 1,015 0 04 Mar 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 391 1,565 0 27 Feb 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 927 29,436 0 26 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 527 3,724 0 24 Feb 2021
Conditional Positional Encodings for Vision Transformers Xiangxiang Chu Zhi Tian Bo Zhang Xinlong Wang Chunhua Shen ViT 80 616 0 22 Feb 2021
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers Sixiao Zheng Jiachen Lu Hengshuang Zhao Xiatian Zhu Zekun Luo ... Yanwei Fu Jianfeng Feng Tao Xiang Philip Torr Li Zhang ViT 194 2,898 0 31 Dec 2020
Training data-efficient image transformers & distillation through attention Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou ViT 384 6,768 0 23 Dec 2020
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Huayu Chen A. Srinivas Rui Qian Nayeon Lee E. D. Cubuk Quoc V. Le Barret Zoph ISeg 290 991 0 13 Dec 2020
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals Pei Sun Rufeng Zhang Yi Jiang Tao Kong Chenfeng Xu ... Masayoshi Tomizuka Lei Li Zehuan Yuan Changhu Wang Ping Luo ObjD 93 1,097 0 25 Nov 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 654 41,103 0 22 Oct 2020
Deformable DETR: Deformable Transformers for End-to-End Object Detection Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang Jifeng Dai ViT 218 5,080 0 08 Oct 2020
TIDE: A General Toolbox for Identifying Object Detection Errors Daniel Bolya Sean Foley James Hays Judy Hoffman 76 195 0 18 Aug 2020
Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection Xiang Li Wenhai Wang Lijun Wu Shuo Chen Xiaolin Hu Jun Li Jinhui Tang Jian Yang ObjD 71 1,199 0 08 Jun 2020
Hierarchical Multi-Scale Attention for Semantic Segmentation Andrew Tao Karan Sapra Bryan Catanzaro SSeg 73 452 0 21 May 2020
Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection Shifeng Zhang Cheng Chi Yongqiang Yao Zhen Lei Stan Z. Li ObjD 160 1,546 0 05 Dec 2019
InstaBoost: Boosting Instance Segmentation via Probability Map Guided Copy-Pasting Haoshu Fang Jianhua Sun Runzhong Wang Minghao Gou Yong-Lu Li Cewu Lu ISeg 55 210 0 21 Aug 2019
Benchmarking the Robustness of Semantic Segmentation Models Christoph Kamann Carsten Rother VLM UQCV 53 165 0 14 Aug 2019
Cascade R-CNN: High Quality Object Detection and Instance Segmentation Zhaowei Cai Nuno Vasconcelos ObjD 79 1,356 0 24 Jun 2019