v1v2v3 (latest)

Masked Autoencoders Are Scalable Vision Learners

11 November 2021

Piotr Dollár

Papers citing "Masked Autoencoders Are Scalable Vision Learners"

50 / 4,779 papers shown

Title
PolypNextLSTM: A lightweight and fast polyp video segmentation network using ConvNext and ConvLSTM Debayan Bhattacharya Konrad Reuter F. Behrendt Lennart Maack S. Grube Alexander Schlaefer 83 3 0 18 Feb 2024
PASCL: Supervised Contrastive Learning with Perturbative Augmentation for Particle Decay Reconstruction Junjian Lu Siwei Liu Dmitrii Kobylianski Etienne Dreyer Eilam Gross Houcheng Su 67 3 0 18 Feb 2024
Thyroid ultrasound diagnosis improvement via multi-view self-supervised learning and two-stage pre-training Jian Wang Xin Yang X. Jia Wufeng Xue Rusi Chen ... Lian Liu Yan Cao Jianqiao Zhou Dong Ni Ning Gu 82 5 0 18 Feb 2024
Key Patch Proposer: Key Patches Contain Rich Information Jing Xu Beiwen Tian Hao Zhao VLM 74 0 0 18 Feb 2024
Learning by Reconstruction Produces Uninformative Features For Perception Randall Balestriero Yann LeCun 70 22 0 17 Feb 2024
On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models Juliette Marrie Michael Arbel Julien Mairal Diane Larlus VLM MQ 92 1 0 17 Feb 2024
DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT Based Diffusion Model Yu Feng Xing Shi Mengli Cheng Yun Xiong 43 0 0 17 Feb 2024
EEG2Rep: Enhancing Self-supervised EEG Representation Through Informative Masked Inputs Navid Mohammadi Foumani G. Mackellar Soheila Ghane Saad Irtza Nam Nguyen Mahsa Salehi 99 17 0 17 Feb 2024
Fusion of Diffusion Weighted MRI and Clinical Data for Predicting Functional Outcome after Acute Ischemic Stroke with Deep Contrastive Learning Chia-Ling Tsai Hui-Yun Su Shen-Feng Sung Wei-Yang Lin Ying-Ying Su Tzu-Hsien Yang Man-Lin Mai 29 2 0 16 Feb 2024
PointMamba: A Simple State Space Model for Point Cloud Analysis Dingkang Liang Xin Zhou Wei Xu Xingkui Zhu Zhikang Zou Xiaoqing Ye Xinyu Wang Xiang Bai 200 104 0 16 Feb 2024
Pretext Training Algorithms for Event Sequence Data Yimu Wang He Zhao Ruizhi Deng Frederick Tung Greg Mori AI4TS 71 0 0 16 Feb 2024
Revisiting Feature Prediction for Learning Visual Representations from Video Adrien Bardes Q. Garrido Jean Ponce Xinlei Chen Michael G. Rabbat Yann LeCun Mahmoud Assran Nicolas Ballas MDE VLM 160 87 0 15 Feb 2024
Balancing the Causal Effects in Class-Incremental Learning Junhao Zheng Ruiyan Wang Chongzhi Zhang Hu Feng Qianli Ma CML CLL 113 0 0 15 Feb 2024
Lester: rotoscope animation through video object segmentation and tracking Ruben Tous DiffM VOS 55 0 0 15 Feb 2024
Towards Privacy-Aware Sign Language Translation at Scale Phillip Rust Bowen Shi Skyler Wang Necati Cihan Camgöz Jean Maillard SLR 91 17 0 14 Feb 2024
Learning Low-Rank Feature for Thorax Disease Classification Rajeev Goel Utkarsh Nath Yancheng Wang Alvin C. Silva Teresa Wu Yingzhen Yang 99 0 0 14 Feb 2024
Switch EMA: A Free Lunch for Better Flatness and Sharpness Siyuan Li Zicheng Liu Juanxi Tian Ge Wang Zedong Wang ... Cheng Tan Tao Lin Yang Liu Baigui Sun Stan Z. Li 66 6 0 14 Feb 2024
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision Zhaoqing Wang Xiaobo Xia Ziye Chen Xiao He Yandong Guo Biwei Huang Tongliang Liu VLM 98 13 0 14 Feb 2024
Leveraging Self-Supervised Instance Contrastive Learning for Radar Object Detection Colin Decourt R. V. Rullen D. Salle Thomas Oberlin SSL 70 0 0 13 Feb 2024
Optimized Information Flow for Transformer Tracking Janani Kugarajeevan T. Kokul A. Ramanan Subha Fernando 117 0 0 13 Feb 2024
Pixel Sentence Representation Learning Chenghao Xiao Zhuoxu Huang Danlu Chen G. Hudson Yizhi Li Haoran Duan Chenghua Lin Jie Fu Jungong Han Noura Al Moubayed SSL 46 3 0 13 Feb 2024
Multiple Random Masking Autoencoder Ensembles for Robust Multimodal Semi-supervised Learning Alexandru-Raul Todoran Marius Leordeanu 82 0 0 12 Feb 2024
UGMAE: A Unified Framework for Graph Masked Autoencoders Yijun Tian Chuxu Zhang Ziyi Kou Zheyuan Liu Xiangliang Zhang Nitesh Chawla 90 1 0 12 Feb 2024
Task-conditioned adaptation of visual features in multi-task policy learning Pierre Marza L. Matignon Olivier Simonin Christian Wolf 99 3 0 12 Feb 2024
A Closer Look at the Robustness of Contrastive Language-Image Pre-Training (CLIP) Weijie Tu Weijian Deng Tom Gedeon UQCV VLM 73 35 0 12 Feb 2024
Rethinking Graph Masked Autoencoders through Alignment and Uniformity Liang Wang Xiang Tao Qiang Liu Shu Wu Liang Wang 98 18 0 11 Feb 2024
Cacophony: An Improved Contrastive Audio-Text Model Ge Zhu Jordan Darefsky Zhiyao Duan AuLLM 94 12 0 10 Feb 2024
CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition Ioannis Ziogas Hessa Alfalahi A. Khandoker L. Hadjileontiadis 59 0 0 10 Feb 2024
More than the Sum of Its Parts: Ensembling Backbone Networks for Few-Shot Segmentation Nicolás Catalano Alessandro Maranelli Agnese Chiatti Matteo Matteucci 68 1 0 09 Feb 2024
Large Language Models for Captioning and Retrieving Remote Sensing Images João Daniel Silva João Magalhães D. Tuia Bruno Martins 89 29 0 09 Feb 2024
A self-supervised framework for learning whole slide representations X. Hou Cheng Jiang A. Kondepudi Yiwei Lyu Asadur Chowdury Honglak Lee Todd C. Hollon MedIm 91 6 0 09 Feb 2024
Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain Amin Karimi Monsefi Payam Karisani Mengxi Zhou Stacey S. Choi Nathan Doble Heng Ji Srinivasan Parthasarathy R. Ramnath 100 5 0 09 Feb 2024
An Interactive Agent Foundation Model Zane Durante Bidipta Sarkar Ran Gong Rohan Taori Yusuke Noda ... Katsushi Ikeuchi Fei-Fei Li Jianfeng Gao Naoki Wake Qiuyuan Huang LM&Ro AI4CE LLMAG 146 19 0 08 Feb 2024
Real-World Robot Applications of Foundation Models: A Review Kento Kawaharazuka T. Matsushima Andrew Gambardella Jiaxian Guo Chris Paxton Andy Zeng OffRL VLM LM&Ro 116 54 0 08 Feb 2024
Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts Zhili Liu Kai Chen Jianhua Han Lanqing Hong Hang Xu Zhenguo Li James T. Kwok MoE 185 25 0 08 Feb 2024
Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models Nicholas Konz Yuwen Chen Haoyu Dong Maciej A. Mazurowski MedIm 124 31 0 07 Feb 2024
Data-efficient Large Vision Models through Sequential Autoregression Jianyuan Guo Zhiwei Hao Chengcheng Wang Yehui Tang Han Wu Han Hu Kai Han Chang Xu VLM 110 10 0 07 Feb 2024
V2VSSC: A 3D Semantic Scene Completion Benchmark for Perception with Vehicle to Vehicle Communication Yuanfang Zhang Junxuan Li Kaiqing Luo Yiying Yang Jiayi Han Nian Liu Denghui Qin Peng Han Chengpei Xu 47 5 0 07 Feb 2024
Sparse Anatomical Prompt Semi-Supervised Learning with Masked Image Modeling for CBCT Tooth Segmentation Pengyu Dai Yafei Ou Yang Liu Yue Zhao 38 0 0 07 Feb 2024
Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning Ningyuan Tang Minghao Fu Ke Zhu Jianxin Wu 104 10 0 06 Feb 2024
Pre-training of Lightweight Vision Transformers on Small Datasets with Minimally Scaled Images Jen Hong Tan ViT 26 3 0 06 Feb 2024
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models Jianyuan Guo Hanting Chen Chengcheng Wang Kai Han Chang Xu Yunhe Wang VLM 71 23 0 06 Feb 2024
Online Feature Updates Improve Online (Generalized) Label Shift Adaptation Ruihan Wu Siddhartha Datta Yi Su Dheeraj Baby Yu Wang Kilian Q. Weinberger 64 1 0 05 Feb 2024
HASSOD: Hierarchical Adaptive Self-Supervised Object Detection Shengcao Cao Dhiraj Joshi Liangyan Gui Yu Wang 88 11 0 05 Feb 2024
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives Sheng Luo Wei Chen Wanxin Tian Rui Liu Luanxuan Hou ... Ling Shao Yi Yang Bojun Gao Qun Li Guobin Wu 137 17 0 05 Feb 2024
Enhancing Compositional Generalization via Compositional Feature Alignment Haoxiang Wang Haozhe Si Huajie Shao Han Zhao 115 2 0 05 Feb 2024
Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning Haoyi Zhu Yating Wang Di Huang Weicai Ye Wanli Ouyang Tong He SSL 3DPC 155 25 0 04 Feb 2024
TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling Jiaxiang Dong Haixu Wu Yuxuan Wang Yunzhong Qiu Li Zhang Jianmin Wang Mingsheng Long AI4TS 78 15 0 04 Feb 2024
Deep Spectral Improvement for Unsupervised Image Instance Segmentation Farnoosh Arefi Amir M. Mansourian S. Kasaei ISeg 91 1 0 04 Feb 2024
Revisiting the Power of Prompt for Visual Tuning Yuzhu Wang Lechao Cheng Chaowei Fang Dingwen Zhang Manni Duan Meng Wang VLM 130 16 0 04 Feb 2024