MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any
Resolution

MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution

28 May 2024

Papers citing "MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution"

11 / 11 papers shown

Title
ProtoGCD: Unified and Unbiased Prototype Learning for Generalized Category Discovery Shijie Ma Fei Zhu Xu-Yao Zhang Cheng-Lin Liu 31 1 0 02 Apr 2025
FlexiMo: A Flexible Remote Sensing Foundation Model Xuyang Li Chenyu Li Pedram Ghamisi Danfeng Hong 40 0 0 31 Mar 2025
Simpler Fast Vision Transformers with a Jumbo CLS Token A. Fuller Yousef Yassin Daniel G. Kyrollos Evan Shelhamer James R. Green 72 0 0 24 Feb 2025
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 163 263 0 07 Oct 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,443 0 11 Nov 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 277 3,623 0 24 Feb 2021
Dynamic ReLU Yinpeng Chen Xiyang Dai Mengchen Liu Dongdong Chen Lu Yuan Zicheng Liu 177 162 0 22 Mar 2020
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,220 0 16 Nov 2016
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 258 36,371 0 25 Aug 2016
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 253 1,828 0 18 Aug 2016
Spatial Transformer Networks Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu 146 7,337 0 05 Jun 2015