v1v2v3 (latest)

Masked Autoencoders Are Scalable Vision Learners

11 November 2021

Piotr Dollár

Papers citing "Masked Autoencoders Are Scalable Vision Learners"

50 / 4,777 papers shown

Title
Foundation Models Secretly Understand Neural Network Weights: Enhancing Hypernetwork Architectures with Foundation Models Jeffrey Gu Serena Yeung-Levy AI4CE 70 1 0 02 Mar 2025
Random Walks in Self-supervised Learning for Triangular Meshes Gal Yefet A. Tal SSL 110 0 0 02 Mar 2025
Confounder-Aware Medical Data Selection for Fine-Tuning Pretrained Vision Models Anyang Ji Qingbo Kang Wei Xu Changfan Wang Kang Li Qicheng Lao 71 0 0 02 Mar 2025
Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation Wenzhao Xiang Chang Liu Hongyang Yu Xilin Chen 77 0 0 02 Mar 2025
MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention Tianyi Wang Jianan Fan Dingxin Zhang Dongnan Liu Yong-quan Xia Heng Huang Weidong Cai 159 1 0 01 Mar 2025
Split Adaptation for Pre-trained Vision Transformers Lixu Wang Bingqi Shang Yuchen Li Payal Mohapatra Wei Dong Xiao-Xu Wang Qi Zhu ViT 112 1 0 01 Mar 2025
Unified Video Action Model Shuang Li Yihuai Gao Dorsa Sadigh Shuran Song VGen 158 8 0 28 Feb 2025
Unsupervised Parameter Efficient Source-free Post-pretraining Abhishek Jha Tinne Tuytelaars Yuki M. Asano OOD 89 0 0 28 Feb 2025
Anatomically-guided masked autoencoder pre-training for aneurysm detection Alberto Mario Ceballos-Arroyo Jisoo Kim Hongpeng Zhou Lei Qin Geoffrey S. Young Huaizu Jiang ViT MedIm 58 0 0 28 Feb 2025
ALVI Interface: Towards Full Hand Motion Decoding for Amputees Using sEMG A. Kovalev Anna Makarova Petr Chizhov Matvey Antonov Gleb Duplin ... Viacheslav Gostevskii Vladimir Bessonov Andrey Tsurkan Mikhail Korobok Aleksejs Timčenko 48 0 0 28 Feb 2025
Parallel-Learning of Invariant and Tempo-variant Attributes of Single-Lead Cardiac Signals: PLITA A. Atienza J. Bardram S. Puthusserypady 63 0 0 28 Feb 2025
Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition Mengzhu Li Quanxing Zha Hongjun Wu CVBM 87 0 0 28 Feb 2025
CuPID: Leveraging Masked Single-Lead ECG Modelling for Enhancing the Representations A. Atienza G. Manimaran J. Bardram S. Puthusserypady 134 0 0 28 Feb 2025
TimesBERT: A BERT-Style Foundation Model for Time Series Understanding Haoran Zhang Yong Liu Yunzhong Qiu Haixuan Liu Zhongyi Pei Jianmin Wang Mingsheng Long AI4TS 68 1 0 28 Feb 2025
SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition Shanshan Wan Yingmei Wei Lai Kang Tianrui Shen Haixuan Wang Yee-Hong Yang 160 0 0 28 Feb 2025
Shared Stochastic Gaussian Process Latent Variable Models: A Multi-modal Generative Model for Quasar Spectra Vidhi Lalchand Anna-Christina Eilers 105 0 0 27 Feb 2025
FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction Siyu Jiao Gengwei Zhang Yinlong Qian Jiancheng Huang Yao Zhao Humphrey Shi Lin Ma Y. X. Wei Zequn Jie VLM 101 6 0 27 Feb 2025
Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds Mohamed Abdelsamad Michael Ulrich Claudius Gläser Abhinav Valada 3DPC 128 0 0 27 Feb 2025
Twofold Debiasing Enhances Fine-Grained Learning with Coarse Labels Xin-yang Zhao Jian Jin Yang-yang Li Yazhou Yao 81 0 0 27 Feb 2025
GONet: A Generalizable Deep Learning Model for Glaucoma Detection Or Abramovich Hadas Pizem Jonathan Fhima Eran Berkowitz Ben Gofrit ... Meital Baskin Jan Van Eijgen Ingeborg Stalmans E. Blumenthal Joachim A. Behar 76 2 0 26 Feb 2025
Multispectral to Hyperspectral using Pretrained Foundational model Ruben Gonzalez C. Albrecht Nassim Ait Ali Braham Devyani Lambhate Joao Lucas de Sousa Almeida P. Fraccaro Benedikt Blumenstiel Thomas Brunschwiler Ranjini Bangalore 96 0 0 26 Feb 2025
Dictionary-based Framework for Interpretable and Consistent Object Parsing Tiezheng Zhang Qihang Yu Alan Yuille Ju He 131 1 0 26 Feb 2025
MCLRL: A Multi-Domain Contrastive Learning with Reinforcement Learning Framework for Few-Shot Modulation Recognition Dongwei Xu Yutao Zhu Yao Lu Youpeng Feng Yun Lin Qi Xuan 128 1 0 26 Feb 2025
Mixtraining: A Better Trade-Off Between Compute and Performance Zexin Li Jiancheng Zhang Yufei Li Yinglun Zhu Cong Liu 71 0 0 26 Feb 2025
DenoMAE2.0: Improving Denoising Masked Autoencoders by Classifying Local Patches Atik Faysal Mohammad Rostami Taha Boushine Reihaneh Gh. Roshan Huaxia Wang Nikhil Muralidhar 68 1 0 25 Feb 2025
Escaping The Big Data Paradigm in Self-Supervised Representation Learning Carlos Vélez García Miguel Cazorla Jorge Pomares 85 0 0 25 Feb 2025
Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models Zhaoyi Liu Huan Zhang AAML 201 2 0 25 Feb 2025
Model-Free Adversarial Purification via Coarse-To-Fine Tensor Network Representation Guang Lin D. Nguyen Zerui Tao Konstantinos Slavakis Toshihisa Tanaka Qibin Zhao AAML 110 1 0 25 Feb 2025
Vision-LSTM: xLSTM as Generic Vision Backbone Benedikt Alkin M. Beck Korbinian Poppel Sepp Hochreiter Johannes Brandstetter VLM 235 49 0 24 Feb 2025
Fair Foundation Models for Medical Image Analysis: Challenges and Perspectives Dilermando Queiroz Anderson Carlos André Anjos Lilian Berton 119 0 0 24 Feb 2025
MACPruning: Dynamic Operation Pruning to Mitigate Side-Channel DNN Model Extraction Ruyi Ding Cheng Gongye Davis Ranney A. A. Ding Yunsi Fei AAML 112 0 0 24 Feb 2025
Mitigating Data Scarcity in Time Series Analysis: A Foundation Model with Series-Symbol Data Generation Wenxuan Wang K. Wu Yujian Betterest Li Dan Wang Xinsong Zhang Qingbin Liu AI4TS 115 1 0 24 Feb 2025
A Survey of fMRI to Image Reconstruction Weiyu Guo Guoying Sun Jianxiang He Tong Shao Shaoguang Wang Ziyang Chen Meisheng Hong Ying Sun Hui Xiong 96 1 0 24 Feb 2025
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations Benedikt Alkin Lukas Miklautz Sepp Hochreiter Johannes Brandstetter VLM 257 8 0 24 Feb 2025
A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis Yuli Wu Fucheng Liu Rüveyda Yilmaz Henning Konermann Peter Walter Johannes Stegmaier EGVM MedIm 134 2 0 24 Feb 2025
Understanding the Emergence of Multimodal Representation Alignment Megan Tjandrasuwita Chanakya Ekbote Liu Ziyin Paul Pu Liang 108 2 0 22 Feb 2025
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra Liang Wang Shaozhen Liu Yu Rong Deli Zhao Qiang Liu Shu Wu Liang Wang MedIm 136 3 0 22 Feb 2025
Exploring Patient Data Requirements in Training Effective AI Models for MRI-based Breast Cancer Classification Solha Kang W. D. Neve Francois Rameau Utku Ozbulak OOD 88 0 0 22 Feb 2025
Intelligent Anomaly Detection for Lane Rendering Using Transformer with Self-Supervised Pre-Training and Customized Fine-Tuning Yongqi Dong Xingmin Lu Ruohan Li Wei Song B. Arem Haneen Farah ViT 185 1 0 21 Feb 2025
Contrastive Localized Language-Image Pre-Training Hong-You Chen Zhengfeng Lai Hao Zhang Xiang Wang Marcin Eichner Keen You Meng Cao Bowen Zhang Yue Yang Zhe Gan CLIP VLM 124 10 0 20 Feb 2025
Myna: Masking-Based Contrastive Learning of Musical Representations Ori Yonay Tracy Hammond Tianbao Yang AAML 227 0 0 20 Feb 2025
Simpler Fast Vision Transformers with a Jumbo CLS Token A. Fuller Yousef Yassin Daniel G. Kyrollos Evan Shelhamer James R. Green 203 0 0 20 Feb 2025
$Controllable Unlearning for Image-to-Image Generative Models via $\varepsilon$-Constrained Optimization$ Controllable Unlearning for Image-to-Image Generative Models via $\varepsilon$ -Constrained Optimization Xiaohua Feng Chao-Jun Chen Yuyuan Li Lulu Zhang Longfei Li Jun Zhou Xiaolin Zheng MU 167 0 0 20 Feb 2025
Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity Yizhuo Lu Changde Du Chong Wang Xuanliu Zhu Liuyun Jiang Xujin Li Huiguang He VGen 227 4 0 20 Feb 2025
Toward Foundational Model for Sleep Analysis Using a Multimodal Hybrid Self-Supervised Learning Framework Cheol-Hui Lee Hakseung Kim Byung C. Yoon Dong-Joo Kim 103 0 0 18 Feb 2025
MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding Weikang Qiu Zheng Huang Haoyu Hu Aosong Feng Yujun Yan Rex Ying 97 0 0 18 Feb 2025
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation Zekun Qi Wenyao Zhang Yufei Ding Runpei Dong Xinqiang Yu ... Xin Jin Kaisheng Ma Zhizheng Zhang He Wang Li Yi LM&Ro 211 7 0 18 Feb 2025
Masking the Gaps: An Imputation-Free Approach to Time Series Modeling with Missing Data Abhilash Neog Arka Daw Sepideh Fatemi Khorasgani Anuj Karpatne AI4TS 58 0 0 18 Feb 2025
L4P: Low-Level 4D Vision Perception Unified Abhishek Badki Hang Su Bowen Wen Orazio Gallo VLM 175 1 0 18 Feb 2025
Lightweight Online Adaption for Time Series Foundation Model Forecasts Thomas L. Lee William Toner Rajkarn Singh Artjom Joosem Martin Asenov AI4TS 123 1 0 18 Feb 2025