v1v2v3 (latest)

Masked Autoencoders Are Scalable Vision Learners

11 November 2021

Piotr Dollár

Papers citing "Masked Autoencoders Are Scalable Vision Learners"

50 / 4,779 papers shown

Title
Synthetic Pseudo Anomalies for Unsupervised Video Anomaly Detection: A Simple yet Efficient Framework based on Masked Autoencoder Xiangyu Huang Caidan Zhao Chenxing Gao Lvdong Chen Zhiqiang Wu 66 4 0 09 Mar 2023
Distortion-Disentangled Contrastive Learning Jinfeng Wang Sifan Song Jionglong Su S. Kevin Zhou SSL 128 5 0 09 Mar 2023
Rethinking Visual Prompt Learning as Masked Visual Token Modeling Ning Liao Bowen Shi Xiaopeng Zhang Min Cao Junchi Yan Qi Tian VLM 81 8 0 09 Mar 2023
InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning Ziheng Qin Kaidi Wang Zangwei Zheng Jianyang Gu Xiang Peng ... Daquan Zhou Lei Shang Baigui Sun Xuansong Xie Yang You 187 53 0 08 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 288 336 0 08 Mar 2023
Centroid-centered Modeling for Efficient Vision Transformer Pre-training Xin Yan Zuchao Li Lefei Zhang Bo Du Dacheng Tao VLM 73 0 0 08 Mar 2023
A Categorical Framework of General Intelligence Yang Yuan 87 2 0 08 Mar 2023
Self-Supervised Learning for Group Equivariant Neural Networks Yusuke Mukuta Tatsuya Harada SSL 71 0 0 08 Mar 2023
Self-supervised speech representation learning for keyword-spotting with light-weight transformers Chenyang Gao Yue Gu Francesco Calivá Yuzong Liu OffRL 81 4 0 07 Mar 2023
Foundation Models for Decision Making: Problems, Methods, and Opportunities Sherry Yang Ofir Nachum Yilun Du Jason W. Wei Pieter Abbeel Dale Schuurmans LM&Ro OffRL LRM AI4CE 200 172 0 07 Mar 2023
MAST: Masked Augmentation Subspace Training for Generalizable Self-Supervised Priors Chen Huang Hanlin Goh Jiatao Gu J. Susskind SSL OOD 188 6 0 07 Mar 2023
ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents Sana Khamekhem Jemni Sourour Ammar Mohamed Ali Souibgui Yousri Kessentini A. Cheddad 86 3 0 06 Mar 2023
Masked Images Are Counterfactual Samples for Robust Fine-tuning Yao Xiao Ziyi Tang Pengxu Wei Cong Liu Liang Lin 131 19 0 06 Mar 2023
Guiding Energy-based Models via Contrastive Latent Variables Hankook Lee Jongheon Jeong Sejun Park Jinwoo Shin BDL 88 15 0 06 Mar 2023
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 118 7 0 06 Mar 2023
UniHCP: A Unified Model for Human-Centric Perceptions Yuanzheng Ci Yizhou Wang Meilin Chen Shixiang Tang Lei Bai Feng Zhu Rui Zhao F. Yu Donglian Qi Wanli Ouyang 139 52 0 06 Mar 2023
DPA-P2PNet: Deformable Proposal-aware P2PNet for Accurate Point-based Cell Detection Zhongyi Shui S. Zheng Chenglu Zhu Shichuan Zhang Xiaoxuan Yu Honglin Li Jingxiong Li Pingyi Chen Ling Yang 3DPC 104 5 0 05 Mar 2023
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling Yuan Liu Songyang Zhang Jiacheng Chen Kai-xiang Chen Dahua Lin 119 30 0 04 Mar 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 249 234 0 03 Mar 2023
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners Renrui Zhang Xiangfei Hu Bohao Li Siyuan Huang Hanqiu Deng Hongsheng Li Yu Qiao Peng Gao VLM MLLM 108 181 0 03 Mar 2023
EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization Jun S. Song Jungsoo Lee In So Kweon Sungha Choi TTA 95 94 0 03 Mar 2023
Low-Complexity Audio Embedding Extractors Florian Schmid Khaled Koutini Gerhard Widmer 46 4 0 03 Mar 2023
Mover: Mask and Recovery based Facial Part Consistency Aware Method for Deepfake Video Detection Juan Hu Xin Liao Difei Gao Satoshi Tsutsui Qian Wang Zheng Qin Mike Zheng Shou AAML 90 6 0 03 Mar 2023
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems Yangyang Shu Anton Van Den Hengel Lingqiao Liu SSL 68 15 0 03 Mar 2023
Feature Completion Transformer for Occluded Person Re-identification Tao Wang Mengyuan Liu Hong Liu Wenhao Li Miaoju Ban Tuanyu Guo Yidi Li ViT 68 14 0 03 Mar 2023
A Meta-Learning Approach to Predicting Performance and Data Requirements Achin Jain Gurumurthy Swaminathan Paolo Favaro Hao Yang Avinash Ravichandran ... Alessandro Achille Onkar Dabeer Bernt Schiele A. Swaminathan Stefano Soatto 76 8 0 02 Mar 2023
DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction Shubhankar Borse Debasmit Das Hyojin Park H. Cai Risheek Garrepalli Fatih Porikli 123 10 0 02 Mar 2023
Dropout Reduces Underfitting Zhuang Liu Zhi-Qin John Xu Joseph Jin Zhiqiang Shen Trevor Darrell 166 42 0 02 Mar 2023
Image as Set of Points Xu Ma Yuqian Zhou Huan Wang Can Qin Bin Sun Chang Liu Yun Fu VLM 82 52 0 02 Mar 2023
FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical Flow Estimation Xiaoyu Shi Zhaoyang Huang Dasong Li Manyuan Zhang Ka Chun Cheung Simon See Hongwei Qin Jifeng Dai Hongsheng Li 79 88 0 02 Mar 2023
Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review Yining Shi Kun Jiang Jiusi Li Zelin Qian Jun Wen Mengmeng Yang Ke Wang Diange Yang 165 30 0 02 Mar 2023
Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves Sora Takashima Ryo Hayamizu Nakamasa Inoue Hirokatsu Kataoka Rio Yokota 102 20 0 02 Mar 2023
AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images Ramin Nakhli Puria Azadi Moghadam Haoyang Mi H. Farahani Alexander S. Baras B. Gilks A. Bashashati MedIm ViT 102 20 0 01 Mar 2023
Time Series as Images: Vision Transformer for Irregularly Sampled Time Series Zekun Li Shiyang Li Xifeng Yan AI4TS 94 58 0 01 Mar 2023
StraIT: Non-autoregressive Generation with Stratified Image Transformer Shengju Qian Huiwen Chang Yuanzhen Li Zizhao Zhang Jiaya Jia Han Zhang 114 12 0 01 Mar 2023
Rethinking Efficient Tuning Methods from a Unified Perspective Zeyinzi Jiang Chaojie Mao Ziyuan Huang Yiliang Lv Deli Zhao Jingren Zhou 85 11 0 01 Mar 2023
Quality-aware Pre-trained Models for Blind Image Quality Assessment Kai Zhao Kun Yuan Ming-Ting Sun Mading Li Xingsen Wen VLM 42 16 0 01 Mar 2023
OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System Chao Xue Wen Liu Shunxing Xie Zhenfang Wang Jiaxing Li ... Shi-Yong Chen Yibing Zhan Jing Zhang Chaoyue Wang Dacheng Tao 104 2 0 01 Mar 2023
TimeMAE: Self-Supervised Representations of Time Series with Decoupled Masked Autoencoders Mingyue Cheng Qi Liu Zhiding Liu Haotong Zhang Rujiao Zhang Enhong Chen AI4TS 138 49 0 01 Mar 2023
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training Yu Yu Yulin Li Chengquan Zhang Xiaoqiang Zhang Zengyuan Guo Xiameng Qin Kun Yao Junyu Han Errui Ding Jingdong Wang 78 45 0 01 Mar 2023
Convolutional Visual Prompt for Robust Visual Perception Yun-Yun Tsai Chengzhi Mao Junfeng Yang VLM VPVLM 116 15 0 01 Mar 2023
The Trade-off between Universality and Label Efficiency of Representations from Contrastive Learning Zhenmei Shi Jiefeng Chen Kunyang Li Jayaram Raghuram Xi Wu Yingyu Liang S. Jha SSL 79 20 0 28 Feb 2023
Applying Plain Transformers to Real-World Point Clouds Lanxiao Li M. Heizmann 3DPC ViT 82 3 0 28 Feb 2023
Generic-to-Specific Distillation of Masked Autoencoders Wei Huang Zhiliang Peng Li Dong Furu Wei Jianbin Jiao QiXiang Ye 90 23 0 28 Feb 2023
Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors Ji Hou Xiaoliang Dai Zijian He Angela Dai Matthias Nießner ViT 3DPC 85 17 0 28 Feb 2023
Efficient Masked Autoencoders with Self-Consistency Zhaowen Li Yousong Zhu Zhiyang Chen Wei Li Chaoyang Zhao Rui Zhao Ming Tang Jinqiao Wang 136 2 0 28 Feb 2023
DREAM: Efficient Dataset Distillation by Representative Matching Yanqing Liu Jianyang Gu Kai Wang Zheng Hua Zhu Wei Jiang Yang You DD 134 82 0 28 Feb 2023
Sampled Transformer for Point Sets Shidi Li Christian J. Walder Alexander Soen Lexing Xie Miaomiao Liu 3DPC 72 1 0 28 Feb 2023
Valid Information Guidance Network for Compressed Video Quality Enhancement Xuan Sun Ziyue Zhang Guannan Chen Dan Zhu 81 0 0 28 Feb 2023
Improving Model Generalization by On-manifold Adversarial Augmentation in the Frequency Domain Chang-rui Liu Wenzhao Xiang Yuan He H. Xue Shibao Zheng Hang Su 83 4 0 28 Feb 2023