Masked Image Modeling with Local Multi-Scale Reconstruction

Masked Image Modeling with Local Multi-Scale Reconstruction

9 March 2023

Papers citing "Masked Image Modeling with Local Multi-Scale Reconstruction"

13 / 13 papers shown

Title
Evolved Hierarchical Masking for Self-Supervised Learning Zhanzhou Feng Shiliang Zhang 49 0 0 12 Apr 2025
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 72 6 0 13 Aug 2024
Representing Part-Whole Hierarchies in Foundation Models by Learning Localizability, Composability, and Decomposability from Anatomy via Self-Supervision M. Taher Michael B. Gotway Jianming Liang MedIm 34 5 0 24 Apr 2024
MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis Jiaxin Zhuang Linshan Wu Qiong Wang V. Vardhanabhuti Lin Luo Hao Chen Hao Chen 57 4 0 24 Apr 2024
MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for Facial Expression Recognition Fan Zhang Xiaobao Guo Xiaojiang Peng Alex C. Kot 27 0 0 14 Jan 2024
Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture Wei-Jang Li Yang Wei Tianpeng Liu Yuenan Hou Yuxuan Li Zhen Liu Yongxiang Liu Li Liu 36 18 0 26 Nov 2023
Species196: A One-Million Semi-supervised Dataset for Fine-grained Species Recognition W. He Kai Han Ying Nie Chengcheng Wang Yunhe Wang VLM 48 6 0 25 Sep 2023
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality Xiang Li Wenhai Wang Lingfeng Yang Jian Yang 119 73 0 20 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 322 7,481 0 11 Nov 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 371 5,818 0 29 Apr 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 319 1,525 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 316 3,633 0 24 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 301 39,238 0 01 Sep 2014