Title
A simple, efficient and scalable contrastive masked autoencoder for learning visual representations Shlok Kumar Mishra Joshua Robinson Huiwen Chang David Jacobs Aaron Sarna Aaron Maschinot Dilip Krishnan DiffM 114 31 0 30 Oct 2022
Unsupervised Learning of Structured Representations via Closed-Loop Transcription Shengbang Tong Xili Dai Yubei Chen Mingyang Li Zengyi Li Brent Yi Yann LeCun Yi Ma SSL DRL 96 7 0 30 Oct 2022
Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada K. Kashino SSL 101 33 0 26 Oct 2022
Adversarial Pretraining of Self-Supervised Deep Networks: Past, Present and Future Guo-Jun Qi M. Shah SSL 78 8 0 23 Oct 2022
Towards Sustainable Self-supervised Learning Shanghua Gao Pan Zhou Mingg-Ming Cheng Shuicheng Yan CLL 122 7 0 20 Oct 2022
CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion Philippe Weinzaepfel Vincent Leroy Thomas Lucas Romain Brégier Yohann Cabon Vaibhav Arora L. Antsfeld Boris Chidlovskii G. Csurka Jérôme Revaud SSL 138 73 0 19 Oct 2022
A Unified View of Masked Image Modeling Zhiliang Peng Li Dong Hangbo Bao QiXiang Ye Furu Wei VLM 133 38 0 19 Oct 2022
Learning Self-Regularized Adversarial Views for Self-Supervised Vision Transformers Tao Tang Changlin Li Guangrun Wang Kaicheng Yu Xiaojun Chang Xiaodan Liang ViT 68 1 0 16 Oct 2022
Exploring Long-Sequence Masked Autoencoders Ronghang Hu Shoubhik Debnath Saining Xie Xinlei Chen 47 18 0 13 Oct 2022
It Takes Two: Masked Appearance-Motion Modeling for Self-supervised Video Transformer Pre-training Yuxin Song Min Yang Wenhao Wu Dongliang He Fu Li Jingdong Wang ViT 147 9 0 11 Oct 2022
Backdoor Attacks in the Supply Chain of Masked Image Modeling Xinyue Shen Xinlei He Zheng Li Yun Shen Michael Backes Yang Zhang 78 8 0 04 Oct 2022
Federated Training of Dual Encoding Models on Small Non-IID Client Datasets Raviteja Vemulapalli Warren Morningstar Philip Mansfield Hubert Eichner K. Singhal Arash Afkanpour Bradley Green FedML 92 2 0 30 Sep 2022
Statistical Foundation Behind Machine Learning and Its Impact on Computer Vision Lei Zhang H. Shum VLM SSL 65 2 0 06 Sep 2022
ViTKD: Practical Guidelines for ViT feature knowledge distillation Zhendong Yang Zhe Li Ailing Zeng Zexian Li Chun Yuan Yu Li 142 42 0 06 Sep 2022
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining Xiaoyi Dong Jianmin Bao Yinglin Zheng Ting Zhang Dongdong Chen ... Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu CLIP VLM 113 167 0 25 Aug 2022
VLMAE: Vision-Language Masked Autoencoder Su He Taian Guo Tao Dai Ruizhi Qiao Chen Wu Xiujun Shu Bohan Ren VLM 84 11 0 19 Aug 2022
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models Xingyu Xie Pan Zhou Huan Li Zhouchen Lin Shuicheng Yan ODL 94 169 0 13 Aug 2022
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers Zhiliang Peng Li Dong Hangbo Bao QiXiang Ye Furu Wei 71 322 0 12 Aug 2022
MILAN: Masked Image Pretraining on Language Assisted Representation Zejiang Hou Fei Sun Yen-kuang Chen Yuan Xie S. Kung ViT 121 70 0 11 Aug 2022
Understanding Masked Image Modeling via Learning Occlusion Invariant Feature Xiangwen Kong Xiangyu Zhang SSL 73 54 0 08 Aug 2022
SdAE: Self-distillated Masked Autoencoder Yabo Chen Yuchen Liu Dongsheng Jiang Xiaopeng Zhang Wenrui Dai H. Xiong Qi Tian ViT 99 73 0 31 Jul 2022
A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond Chaoning Zhang Chenshuang Zhang Junha Song John Seon Keun Yi Kang Zhang In So Kweon SSL 96 77 0 30 Jul 2022
Contrastive Masked Autoencoders are Stronger Vision Learners Zhicheng Huang Xiaojie Jin Cheng Lu Qibin Hou Mingg-Ming Cheng Dongmei Fu Xiaohui Shen Jiashi Feng 154 154 0 27 Jul 2022
Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment Qiang Chen Xiaokang Chen Jian Wang Shan Zhang Kun Yao Haocheng Feng Junyu Han Errui Ding Gang Zeng Jingdong Wang ViT 143 135 0 26 Jul 2022
Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers Jia Li Jian‐Hui Nie Dan Guo Richang Hong Meng Wang ViT 84 15 0 22 Jul 2022
Conditional DETR V2: Efficient Detection Transformer with Box Queries Xiaokang Chen Fangyun Wei Gang Zeng Jingdong Wang ViT 75 33 0 18 Jul 2022
E-NeRV: Expedite Neural Video Representation with Disentangled Spatial-Temporal Context Zizhang Li Mengmeng Wang Huaijin Pi Kechun Xu Jianbiao Mei Yong Liu 86 75 0 17 Jul 2022
Bootstrapped Masked Autoencoders for Vision BERT Pretraining Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu 89 78 0 14 Jul 2022
Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders Chen Min Xinli Xu Dawei Zhao Liang Xiao Yiming Nie Bin Dai 3DPC 136 53 0 20 Jun 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 121 35 0 19 Jun 2022
Masked Frequency Modeling for Self-Supervised Visual Pre-Training Jiahao Xie Wei Li Xiaohang Zhan Ziwei Liu Yew-Soon Ong Chen Change Loy 113 74 0 15 Jun 2022
SERE: Exploring Feature Self-relation for Self-supervised Transformer Zhong-Yu Li Shanghua Gao Ming-Ming Cheng ViT MDE 101 14 0 10 Jun 2022
Masked Autoencoders are Robust Data Augmentors Haohang Xu Shuangrui Ding Xiaopeng Zhang H. Xiong 131 28 0 10 Jun 2022
Extreme Masking for Learning Instance and Distributed Visual Representations Zhirong Wu Zihang Lai Xiao Sun Stephen Lin 106 22 0 09 Jun 2022
Spatial Entropy as an Inductive Bias for Vision Transformers E. Peruzzo E. Sangineto Yahui Liu Marco De Nadai Wei Bi Bruno Lepri N. Sebe ViT MDE 114 2 0 09 Jun 2022
Siamese Image Modeling for Self-Supervised Vision Representation Learning Chenxin Tao Xizhou Zhu Weijie Su Gao Huang Bin Li Jie Zhou Yu Qiao Xiaogang Wang Jifeng Dai SSL 103 96 0 02 Jun 2022
MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang 114 43 0 01 Jun 2022
Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction Jun Chen Ming Hu Boyang Albert Li Mohamed Elhoseiny 142 37 0 01 Jun 2022
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling Xiaosong Zhang Yunjie Tian Wei Huang QiXiang Ye Qi Dai Lingxi Xie Qi Tian 101 29 0 30 May 2022
Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN Siyuan Li Di Wu Fang Wu Lei Shang Stan.Z.Li 84 49 0 27 May 2022
HIRL: A General Framework for Hierarchical Image Representation Learning Minghao Xu Yuanfan Guo Xuanyu Zhu Jiawen Li Zhenbang Sun Jiangtao Tang Yi Xu Bingbing Ni SSL 32 3 0 26 May 2022
MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision Transformers Jihao Liu Xin Huang Jinliang Zheng Yu Liu Hongsheng Li 59 55 0 26 May 2022
Decoder Denoising Pretraining for Semantic Segmentation Emmanuel B. Asiedu Simon Kornblith Ting Chen Niki Parmar Matthias Minderer Mohammad Norouzi AI4CE 260 27 0 23 May 2022
Improvements to Self-Supervised Representation Learning for Masked Image Modeling Jia-ju Mao Xuesong Yin Yuan Chang Honggu Zhou SSL 47 1 0 21 May 2022
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality Xiang Li Wenhai Wang Lingfeng Yang Jian Yang 179 75 0 20 May 2022
Global Contrast Masked Autoencoders Are Powerful Pathological Representation Learners Hao Quan Xingyu Li Weixing Chen Qun Bai Mingchen Zou Ruijie Yang Tingting Zheng R. Qi Xin Gao Xiaoyu Cui MedIm 110 20 0 18 May 2022
ConvMAE: Masked Convolution Meets Masked Autoencoders Peng Gao Teli Ma Hongsheng Li Ziyi Lin Jifeng Dai Yu Qiao ViT 79 128 0 08 May 2022
Masked Image Modeling Advances 3D Medical Image Analysis Zekai Chen Devansh Agarwal Kshitij Aggarwal Wiem Safta Samit Hirawat V. Sethuraman Mariann Micsinai Balan Kevin Brown 81 72 0 25 Apr 2022
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models Chunyuan Li Haotian Liu Liunian Harold Li Pengchuan Zhang J. Aneja ... Ping Jin Houdong Hu Zicheng Liu Yong Jae Lee Jianfeng Gao 86 152 0 19 Apr 2022
The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training Hao Liu Xinghua Jiang Xin Li Antai Guo Deqiang Jiang Bo Ren 88 39 0 18 Apr 2022