SimMIM: A Simple Framework for Masked Image Modeling

18 November 2021

Jianmin Bao

Papers citing "SimMIM: A Simple Framework for Masked Image Modeling"

49 / 849 papers shown

Title
An Empirical Study Of Self-supervised Learning Approaches For Object Detection With Transformers Gokul Karthik Kumar Sahal Shaji Mullappilly Abhishek Singh Gehlot ViT 28 1 0 11 May 2022
Multiplexed Immunofluorescence Brain Image Analysis Using Self-Supervised Dual-Loss Adaptive Masked Autoencoder S. Ly Bai Lin Hung Q. Vo D. Maric B. Roysam H. V. Nguyen 31 0 0 10 May 2022
ConvMAE: Masked Convolution Meets Masked Autoencoders Peng Gao Teli Ma Hongsheng Li Ziyi Lin Jifeng Dai Yu Qiao ViT 19 121 0 08 May 2022
Automatic segmentation of meniscus based on MAE self-supervision and point-line weak supervision paradigm Yuhan Xie Kexin Jiang Zhiyong Zhang Shaolong Chen Xiaodong Zhang Changzhen Qiu 27 1 0 07 May 2022
MINI: Mining Implicit Novel Instances for Few-Shot Object Detection Yuhang Cao Jiaqi Wang Yiqi Lin Dahua Lin ObjD 25 5 0 06 May 2022
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 79 1,262 0 04 May 2022
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers Ming Ding Wendi Zheng Wenyi Hong Jie Tang VLM 41 322 0 28 Apr 2022
Deeper Insights into the Robustness of ViTs towards Common Corruptions Rui Tian Zuxuan Wu Qi Dai Han Hu Yu-Gang Jiang ViT AAML 21 4 0 26 Apr 2022
Masked Image Modeling Advances 3D Medical Image Analysis Zekai Chen Devansh Agarwal Kshitij Aggarwal Wiem Safta Samit Hirawat V. Sethuraman Mariann Micsinai Balan Kevin Brown 33 69 0 25 Apr 2022
The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training Hao Liu Xinghua Jiang Xin Li Antai Guo Deqiang Jiang Bo Ren 29 37 0 18 Apr 2022
ResT V2: Simpler, Faster and Stronger Qing-Long Zhang Yubin Yang ViT 35 25 0 15 Apr 2022
Masked Siamese Networks for Label-Efficient Learning Mahmoud Assran Mathilde Caron Ishan Misra Piotr Bojanowski Florian Bordes Pascal Vincent Armand Joulin Michael G. Rabbat Nicolas Ballas SSL 31 310 0 14 Apr 2022
Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection Yuxin Fang Shusheng Yang Shijie Wang Yixiao Ge Ying Shan Xinggang Wang 31 55 0 06 Apr 2022
MultiMAE: Multi-modal Multi-task Masked Autoencoders Roman Bachmann David Mizrahi Andrei Atanov Amir Zamir 41 265 0 04 Apr 2022
Improving Vision Transformers by Revisiting High-frequency Components Jiawang Bai Liuliang Yuan Shutao Xia Shuicheng Yan Zhifeng Li Wei Liu ViT 16 90 0 03 Apr 2022
UNetFormer: A Unified Vision Transformer Model and Pre-Training Framework for 3D Medical Image Segmentation Ali Hatamizadeh Ziyue Xu Dong Yang Wenqi Li H. Roth Daguang Xu ViT MedIm 37 29 0 01 Apr 2022
Self-distillation Augmented Masked Autoencoders for Histopathological Image Classification Yang Luo Zhineng Chen Shengtian Zhou Xieping Gao 31 1 0 31 Mar 2022
mc-BEiT: Multi-choice Discretization for Image BERT Pre-training Xiaotong Li Yixiao Ge Kun Yi Zixuan Hu Ying Shan Ling-yu Duan 37 38 0 29 Mar 2022
Mugs: A Multi-Granular Self-Supervised Learning Framework Pan Zhou Yichen Zhou Chenyang Si Weihao Yu Teck Khim Ng Shuicheng Yan VLM 37 60 0 27 Mar 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 137 1,129 0 23 Mar 2022
MixFormer: End-to-End Tracking with Iterative Mixed Attention Yutao Cui Jiang Cheng Limin Wang Gangshan Wu VOT 34 454 0 21 Mar 2022
Multi-Modal Masked Pre-Training for Monocular Panoramic Depth Completion Zhiqiang Yan Xiang Li Kun Wang Zhenyu Zhang Jun Yu Li Jian Yang MDE 31 32 0 18 Mar 2022
Three things everyone should know about Vision Transformers Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Jakob Verbeek Hervé Jégou ViT 24 119 0 18 Mar 2022
Masked Autoencoders for Point Cloud Self-supervised Learning Yatian Pang Wenxiao Wang Francis E. H. Tay Wei Liu Yonghong Tian Liuliang Yuan 3DPC ViT 33 454 0 13 Mar 2022
MVP: Multimodality-guided Visual Pre-training Longhui Wei Lingxi Xie Wen-gang Zhou Houqiang Li Qi Tian 28 106 0 10 Mar 2022
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao ViT 33 229 0 21 Feb 2022
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision Priya Goyal Quentin Duval Isaac Seessel Mathilde Caron Ishan Misra Levent Sagun Armand Joulin Piotr Bojanowski VLM SSL 26 110 0 16 Feb 2022
CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni Retrieval Licheng Yu Jun Chen Animesh Sinha Mengjiao MJ Wang Hugo Chen Tamara L. Berg Ning Zhang VLM 31 39 0 15 Feb 2022
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language Alexei Baevski Wei-Ning Hsu Qiantong Xu Arun Babu Jiatao Gu Michael Auli SSL VLM ViT 35 836 0 07 Feb 2022
Corrupted Image Modeling for Self-Supervised Visual Pre-Training Yuxin Fang Li Dong Hangbo Bao Xinggang Wang Furu Wei 17 87 0 07 Feb 2022
Context Autoencoder for Self-Supervised Representation Learning Xiaokang Chen Mingyu Ding Xiaodi Wang Ying Xin Shentong Mo Yunhao Wang Shumin Han Ping Luo Gang Zeng Jingdong Wang SSL 45 386 0 07 Feb 2022
Mask-based Latent Reconstruction for Reinforcement Learning Tao Yu Zhizheng Zhang Cuiling Lan Yan Lu Zhibo Chen 24 44 0 28 Jan 2022
RePre: Improving Self-Supervised Vision Transformer with Reconstructive Pre-training Luyang Wang Feng Liang Yangguang Li Honggang Zhang Wanli Ouyang Jing Shao ViT 39 24 0 18 Jan 2022
On Efficient Transformer-Based Image Pre-training for Low-Level Vision Wenbo Li Xin Lu Shengju Qian Jiangbo Lu Xinming Zhang Jiaya Jia ViT 32 85 0 19 Dec 2021
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo ViT 48 239 0 24 Nov 2021
ViCE: Improving Dense Representation Learning by Superpixelization and Contrasting Cluster Assignment Robin Karlsson Tomoki Hayashi Keisuke Fujii Alexander Carballo Kento Ohtani K. Takeda SSL 42 4 0 24 Nov 2021
Swin Transformer V2: Scaling Up Capacity and Resolution Ze Liu Han Hu Yutong Lin Zhuliang Yao Zhenda Xie ... Yue Cao Zheng-Wei Zhang Li Dong Furu Wei B. Guo ViT 70 1,754 0 18 Nov 2021
Are we ready for a new paradigm shift? A Survey on Visual Deep MLP Ruiyang Liu Hai-Tao Zheng Li Tao Dun Liang Haitao Zheng 85 97 0 07 Nov 2021
GenURL: A General Framework for Unsupervised Representation Learning Siyuan Li Zicheng Liu Z. Zang Di Wu Zhiyuan Chen Stan Z. Li OOD 3DGS OffRL 34 9 0 27 Oct 2021
Self-Supervised Learning by Estimating Twin Class Distributions Feng Wang Tao Kong Rufeng Zhang Huaping Liu Hang Li SSL 55 17 0 14 Oct 2021
Pre-trained Language Models in Biomedical Domain: A Systematic Survey Benyou Wang Qianqian Xie Jiahuan Pei Zhihong Chen Prayag Tiwari Zhao Li Jie Fu LM&MA AI4CE 37 163 0 11 Oct 2021
Computer Vision Self-supervised Learning Methods on Time Series Daesoo Lee Technology AI4TS 31 4 0 02 Sep 2021
A Low Rank Promoting Prior for Unsupervised Contrastive Learning Yu Wang Jingyang Lin Qi Cai Yingwei Pan Ting Yao Hongyang Chao Tao Mei SSL 38 16 0 05 Aug 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 356 5,811 0 29 Apr 2021
SiT: Self-supervised vIsion Transformer Sara Atito Ali Ahmed Muhammad Awais J. Kittler ViT 39 139 0 08 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021
A Survey on Visual Transformer Kai Han Yunhe Wang Hanting Chen Xinghao Chen Jianyuan Guo ... Chunjing Xu Yixing Xu Zhaohui Yang Yiman Zhang Dacheng Tao ViT 18 2,130 0 23 Dec 2020
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Huayu Chen A. Srinivas Rui Qian Nayeon Lee E. D. Cubuk Quoc V. Le Barret Zoph ISeg 252 969 0 13 Dec 2020
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 253 1,829 0 18 Aug 2016