v1v2v3 (latest)

Masked Autoencoders Are Scalable Vision Learners

11 November 2021

Piotr Dollár

Papers citing "Masked Autoencoders Are Scalable Vision Learners"

50 / 4,778 papers shown

Title
Breaking Bad: A Dataset for Geometric Fracture and Reassembly Silvia Sellán Yun-Chun Chen Ziyi Wu Animesh Garg Alec Jacobson 99 34 0 20 Oct 2022
MixMask: Revisiting Masking Strategy for Siamese ConvNets Kirill Vishniakov Eric P. Xing Zhiqiang Shen 39 0 0 20 Oct 2022
Similarity of Neural Architectures using Adversarial Attack Transferability Ian Ryu Dongyoon Han Byeongho Heo Song Park Sanghyuk Chun Jong-Seok Lee AAML 136 2 0 20 Oct 2022
Self-Supervised Learning with Masked Image Modeling for Teeth Numbering, Detection of Dental Restorations, and Instance Segmentation in Dental Panoramic Radiographs A. Almalki Longin Jan Latecki MedIm 46 16 0 20 Oct 2022
On Feature Learning in the Presence of Spurious Correlations Pavel Izmailov Polina Kirichenko Nate Gruver A. Wilson 127 129 0 20 Oct 2022
Freeze then Train: Towards Provable Representation Learning under Spurious Correlations and Feature Noise Haotian Ye James Zou Linjun Zhang OOD 82 23 0 20 Oct 2022
Towards Sustainable Self-supervised Learning Shanghua Gao Pan Zhou Mingg-Ming Cheng Shuicheng Yan CLL 127 7 0 20 Oct 2022
SimpleClick: Interactive Image Segmentation with Simple Vision Transformers Qin Liu Zhenlin Xu Gedas Bertasius Marc Niethammer 98 117 0 20 Oct 2022
SSiT: Saliency-guided Self-supervised Image Transformer for Diabetic Retinopathy Grading Yijin Huang Junyan Lyu Pujin Cheng Roger Tam Xiaoying Tang ViT MedIm 100 20 0 20 Oct 2022
Does Learning from Decentralized Non-IID Unlabeled Data Benefit from Self Supervision? Lirui Wang Kai Zhang Yunzhu Li Yonglong Tian Russ Tedrake 100 17 0 20 Oct 2022
Anomaly Detection Requires Better Representations Tal Reiss Niv Cohen Eliahu Horwitz Ron Abutbul Yedid Hoshen OOD AI4TS SSL 129 21 0 19 Oct 2022
CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion Philippe Weinzaepfel Vincent Leroy Thomas Lucas Romain Brégier Yohann Cabon Vaibhav Arora L. Antsfeld Boris Chidlovskii G. Csurka Jérôme Revaud SSL 138 73 0 19 Oct 2022
A Unified View of Masked Image Modeling Zhiliang Peng Li Dong Hangbo Bao QiXiang Ye Furu Wei VLM 133 38 0 19 Oct 2022
Intra-Source Style Augmentation for Improved Domain Generalization Yumeng Li Dan Zhang Margret Keuper Anna Khoreva 109 33 0 18 Oct 2022
How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios Mantas Mazeika Eric Tang Andy Zou Steven Basart Jun Shern Chan Dawn Song David A. Forsyth Jacob Steinhardt Dan Hendrycks 85 10 0 18 Oct 2022
Perceptual Grouping in Contrastive Vision-Language Models Kanchana Ranasinghe Brandon McKinzie S. S. Ravi Yinfei Yang Alexander Toshev Jonathon Shlens VLM 140 55 0 18 Oct 2022
MaSS: Multi-attribute Selective Suppression Chun-Fu Chen Shaohan Hu Zhong-Zhi Shi Prateek Gulati Bill Moriarty Marco Pistoia Vincenzo Piuri P. Samarati CVBM 58 4 0 18 Oct 2022
Simple Emergent Action Representations from Multi-Task Policy Training Pu Hua Yubei Chen Huazhe Xu MLAU 63 7 0 18 Oct 2022
5th Place Solution to Kaggle Google Universal Image Embedding Competition Noriaki Ota Shingo Yokoi Shinsuke Yamaoka 146 2 0 18 Oct 2022
FIMP: Foundation Model-Informed Message Passing for Graph Neural Networks S. Rizvi Nazreen Pallikkavaliyaveetil David Zhang Zhuoyang Lyu Nhi Nguyen ... Amin Karbasi Rex Ying Maria Brbić Rahul M. Dhodapkar David van Dijk GNN AI4CE 23 1 0 17 Oct 2022
Token Merging: Your ViT But Faster Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman MoMe 132 474 0 17 Oct 2022
Contrastive Language-Image Pre-Training with Knowledge Graphs Xuran Pan Tianzhu Ye Dongchen Han S. Song Gao Huang VLM CLIP 79 54 0 17 Oct 2022
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning Dongze Lian Daquan Zhou Jiashi Feng Xinchao Wang 120 264 0 17 Oct 2022
Continuous Pseudo-Labeling from the Start Dan Berrebbi R. Collobert Samy Bengio Navdeep Jaitly Tatiana Likhomanenko 65 16 0 17 Oct 2022
Learning Self-Regularized Adversarial Views for Self-Supervised Vision Transformers Tao Tang Changlin Li Guangrun Wang Kaicheng Yu Xiaojun Chang Xiaodan Liang ViT 72 1 0 16 Oct 2022
How Mask Matters: Towards Theoretical Understandings of Masked Autoencoders Qi Zhang Yifei Wang Yisen Wang 86 76 0 15 Oct 2022
Transformer-based dimensionality reduction Ruisheng Ran Tianyu Gao Bin Fang MedIm 66 3 0 15 Oct 2022
Injecting Domain Knowledge from Empirical Interatomic Potentials to Neural Networks for Predicting Material Properties Zeren Shui Daniel S. Karls Mingjian Wen Ilia Nikiforov E. Tadmor George Karypis 74 8 0 14 Oct 2022
MOVE: Unsupervised Movable Object Segmentation and Detection Adam Bielski Paolo Favaro OCL 63 21 0 14 Oct 2022
The Hidden Uniform Cluster Prior in Self-Supervised Learning Mahmoud Assran Randall Balestriero Quentin Duval Florian Bordes Ishan Misra Piotr Bojanowski Pascal Vincent Michael G. Rabbat Nicolas Ballas SSL 96 50 0 13 Oct 2022
How to Train Vision Transformer on Small-scale Datasets? Hanan Gani Muzammal Naseer Mohammad Yaqub ViT 70 51 0 13 Oct 2022
Exploring Long-Sequence Masked Autoencoders Ronghang Hu Shoubhik Debnath Saining Xie Xinlei Chen 54 18 0 13 Oct 2022
Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer Yanjing Li Sheng Xu Baochang Zhang Xianbin Cao Penglei Gao Guodong Guo MQ ViT 108 95 0 13 Oct 2022
A Mixture of Surprises for Unsupervised Reinforcement Learning Andrew Zhao Matthieu Lin Yangguang Li Yang Liu Gao Huang 68 13 0 13 Oct 2022
MotionBERT: A Unified Perspective on Learning Human Motion Representations Wenjie Zhu Xiaoxuan Ma Zhaoyang Liu Libin Liu Wayne Wu Yizhou Wang 3DH 126 154 0 12 Oct 2022
Self-Guided Diffusion Models Vincent Tao Hu David W. Zhang Yuki M. Asano Gertjan J. Burghouts Cees G. M. Snoek 126 33 0 12 Oct 2022
Token-Label Alignment for Vision Transformers Han Xiao Wenzhao Zheng Zhengbiao Zhu Jie Zhou Jiwen Lu 87 4 0 12 Oct 2022
FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis via Stacked Transformers Yitian Liu Zheng Lian 107 14 0 12 Oct 2022
Masked Motion Encoding for Self-Supervised Video Representation Learning Xinyu Sun Peihao Chen Liang-Chieh Chen Chan Li Thomas H. Li Mingkui Tan Chuang Gan 83 32 0 12 Oct 2022
3D Brain and Heart Volume Generative Models: A Survey Yanbin Liu Girish Dwivedi F. Boussaïd Bennamoun MedIm AI4CE 107 6 0 12 Oct 2022
ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors Chenjie Cao Qiaole Dong Yanwei Fu 127 31 0 12 Oct 2022
SaiT: Sparse Vision Transformers through Adaptive Token Pruning Ling Li D. Thorsley Joseph Hassoun ViT 41 19 0 11 Oct 2022
OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions Cheng-Hao Wang Wenzhao Zheng Zhengbiao Zhu Jie Zhou Jiwen Lu SSL AI4TS 98 4 0 11 Oct 2022
It Takes Two: Masked Appearance-Motion Modeling for Self-supervised Video Transformer Pre-training Yuxin Song Min Yang Wenhao Wu Dongliang He Fu Li Jingdong Wang ViT 147 9 0 11 Oct 2022
Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials Aviral Kumar Anika Singh F. Ebert Mitsuhiko Nakamoto Yanlai Yang Chelsea Finn Sergey Levine OffRL OnRL 218 71 0 11 Oct 2022
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems Fan Zhou Haoyu Dong Qian Liu Zhoujun Cheng Shi Han Dongmei Zhang ReLM LRM 85 6 0 11 Oct 2022
Self-supervised Model Based on Masked Autoencoders Advance CT Scans Classification Jiashu Xu S. Stirenko 64 3 0 11 Oct 2022
Improving Dense Contrastive Learning with Dense Negative Pairs Berk Iskender Zhenlin Xu Simon Kornblith Enhung Chu M. Khademi SSL 52 2 0 11 Oct 2022
The good, the bad and the ugly sides of data augmentation: An implicit spectral regularization perspective Chi-Heng Lin Chiraag Kaushik Eva L. Dyer Vidya Muthukumar 103 31 0 10 Oct 2022
Masked Autoencoders for Low dose CT denoising Dayang Wang Yongshun Xu Shuo Han Hengyong Yu MedIm 42 13 0 10 Oct 2022