Title
Self-Supervised Learning for Text Recognition: A Critical Survey Carlos Peñarrubia J. J. Valero-Mas Jorge Calvo-Zaragoza 173 2 0 29 Jul 2024
A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation Yiping Zhang Yuntao Shou Tao Meng Wei Ai Keqin Li CVBM 110 10 0 23 Jul 2024
Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning Yibing Wei Abhinav Gupta Pedro Morgado SSL 75 8 0 22 Jul 2024
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders Carlos Hinojosa Shuming Liu Guohao Li 65 2 0 17 Jul 2024
A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification Markus Marks Manuel Knott Neehar Kondapaneni Elijah Cole T. Defraeye Fernando Pérez-Cruz Pietro Perona SSL 125 5 0 16 Jul 2024
Tissue-Contrastive Semi-Masked Autoencoders for Segmentation Pretraining on Chest CT Jie Zheng Ru Wen Haiqin Hu Lina Wei Kui Su Wei Chen Chen Liu Jun Wang 91 1 0 12 Jul 2024
Disentangling Masked Autoencoders for Unsupervised Domain Generalization An Zhang Han Wang Xiang Wang Tat-Seng Chua 95 0 0 10 Jul 2024
Pseudo Labelling for Enhanced Masked Autoencoders S. Nandam Sara Atito Zhenhua Feng Josef Kittler Muhammad Awais 99 1 0 25 Jun 2024
Self-Supervised Pretext Tasks for Alzheimer's Disease Classification using 3D Convolutional Neural Networks on Large-Scale Synthetic Neuroimaging Dataset Chen Zheng MedIm 45 0 0 20 Jun 2024
SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation Yike Yuan Huanzhang Dou Fengjun Guo Xi Li 97 2 0 15 Jun 2024
Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning Chenyu Yang Xizhou Zhu Jinguo Zhu Weijie Su Junjie Wang ... Lewei Lu Bin Li Jie Zhou Yu Qiao Jifeng Dai VLM CLIP 84 6 0 11 Jun 2024
CTSyn: A Foundational Model for Cross Tabular Data Generation Xiaofeng Lin Chenheng Xu Matthew Yang Guang Cheng 81 4 0 07 Jun 2024
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection Qiang Chen Xiangbo Su Xinyu Zhang Jian Wang Jiahui Chen ... Shan Zhang Kun Yao Errui Ding Gang Zhang Jingdong Wang ViT 115 21 0 05 Jun 2024
DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture Shentong Mo Sukmin Yun 91 3 0 28 May 2024
What Variables Affect Out-Of-Distribution Generalization in Pretrained Models? Md Yousuf Harun Kyungbok Lee Jhair Gallardo Giri Krishnan Christopher Kanan 96 6 0 23 May 2024
Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations Mohammed Baharoon Jonathan Klein D. L. Michels SSL VLM 132 0 0 23 May 2024
Efficient Vision-Language Pre-training by Cluster Masking Zihao Wei Zixuan Pan Andrew Owens VLM 93 10 0 14 May 2024
EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training Yulin Wang Yang Yue Rui Lu Yizeng Han Shiji Song Gao Huang VLM 111 12 0 14 May 2024
PLUTO: Pathology-Universal Transformer Dinkar Juyal Harshith Padigela Chintan Shah Daniel Shenker Natalia Harguindeguy ... E. Walk J. Abel Harsha Pokkalla A. Beck S. Grullon MedIm ViT LM&MA 69 13 0 13 May 2024
Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition Zuan Gao Yuxin Wang Yadong Qu Boqiang Zhang Zixiao Wang Jianjun Xu Hongtao Xie ViT 74 9 0 09 May 2024
EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning Jingfeng Yao Xinggang Wang Yuehao Song Huangxuan Zhao Jun Ma Yajie Chen Wenyu Liu Bo Wang ViT 82 6 0 08 May 2024
Improving Long Text Understanding with Knowledge Distilled from Summarization Model Yan Liu Yazheng Yang Xiaokang Chen VLM RALM 65 1 0 08 May 2024
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training Jin Gao Shubo Lin Shaoru Wang Yutong Kou Zeming Li Liang Li Congxuan Zhang Xiaoqin Zhang Yizheng Wang Weiming Hu 104 1 0 18 Apr 2024
GLID: Pre-training a Generalist Encoder-Decoder Vision Model Jihao Liu Jinliang Zheng Yu Liu Hongsheng Li VLM 56 3 0 11 Apr 2024
Masked Modeling Duo: Towards a Universal Audio Pre-training Framework Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada K. Kashino 102 15 0 09 Apr 2024
Multi Positive Contrastive Learning with Pose-Consistent Generated Images Sho Inayoshi Aji Resindra Widya Satoshi Ozaki Junji Otsuka Takeshi Ohashi 3DH 149 1 0 04 Apr 2024
Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders Alexandre Eymaël Renaud Vandeghen A. Cioppa Silvio Giancola Guohao Li Marc Van Droogenbroeck ViT 75 8 0 26 Mar 2024
ViTGaze: Gaze Following with Interaction Features in Vision Transformers Yuehao Song Xinggang Wang Jingfeng Yao Wenyu Liu Jinglin Zhang Xiangmin Xu ViT 76 3 0 19 Mar 2024
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation Wangbo Zhao Jiasheng Tang Yizeng Han Yibing Song Kai Wang Gao Huang F. Wang Yang You 125 12 0 18 Mar 2024
Transformers and Language Models in Form Understanding: A Comprehensive Review of Scanned Document Analysis Abdelrahman Abdallah Daniel Eberharter Zoe Pfister Adam Jatowt 66 12 0 06 Mar 2024
Learning and Leveraging World Models in Visual Representation Learning Q. Garrido Mahmoud Assran Nicolas Ballas Adrien Bardes Laurent Najman Yann LeCun SSL 105 30 0 01 Mar 2024
Revisiting Feature Prediction for Learning Visual Representations from Video Adrien Bardes Q. Garrido Jean Ponce Xinlei Chen Michael G. Rabbat Yann LeCun Mahmoud Assran Nicolas Ballas MDE VLM 155 87 0 15 Feb 2024
Review on Fault Diagnosis and Fault-Tolerant Control Scheme for Robotic Manipulators: Recent Advances in AI, Machine Learning, and Digital Twin Md. Muzakkir Quamar Ali Nasir 64 7 0 05 Feb 2024
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives Sheng Luo Wei Chen Wanxin Tian Rui Liu Luanxuan Hou ... Ling Shao Yi Yang Bojun Gao Qun Li Guobin Wu 131 17 0 05 Feb 2024
Learning Representations for Clustering via Partial Information Discrimination and Cross-Level Interaction Hai-Xin Zhang Dong Huang Hua-Bao Ling Guang-Yu Zhang Wei-jun Sun Zi-hao Wen 43 0 0 24 Jan 2024
HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling for Long-Term Forecasting Shubao Zhao Ming Jin Zhaoxiang Hou Che-Sheng Yang Zengxiang Li Qingsong Wen Yi Wang 73 2 0 10 Jan 2024
Generic Knowledge Boosted Pre-training For Remote Sensing Images Ziyue Huang Mingming Zhang Yuan Gong Qingjie Liu Yunhong Wang VLM 75 15 0 09 Jan 2024
Self-supervised Learning for Electroencephalogram: A Systematic Survey Weining Weng Yang Gu Shuai Guo Yuan Ma Zhaohua Yang Yuchen Liu Yiqiang Chen 87 12 0 09 Jan 2024
Improving Diffusion-Based Image Synthesis with Context Prediction Ling Yang Jingwei Liu Shenda Hong Zhilong Zhang Zhilin Huang Zheming Cai Wentao Zhang Tengjiao Wang DiffM 89 36 0 04 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 105 15 0 31 Dec 2023
Morphing Tokens Draw Strong Masked Image Models Taekyung Kim Byeongho Heo Dongyoon Han 190 3 0 30 Dec 2023
Forgery-aware Adaptive Transformer for Generalizable Synthetic Image Detection Huan Liu Zichang Tan Chuangchuang Tan Yunchao Wei Yao-Min Zhao Jingdong Wang ViT 100 55 0 27 Dec 2023
Bootstrap Masked Visual Modeling via Hard Patches Mining Haochen Wang Junsong Fan Yuxi Wang Kaiyou Song Tiancai Wang Xiangyu Zhang Zhaoxiang Zhang 77 5 0 21 Dec 2023
DMT: Comprehensive Distillation with Multiple Self-supervised Teachers Yuang Liu Jing Wang Qiang-feng Zhou Fan Wang Jun Wang Wei Zhang 39 0 0 19 Dec 2023
A brief introduction to a framework named Multilevel Guidance-Exploration Network Guoqing Yang Zhiming Luo Jianzhe Gao Yingxin Lai Kun Yang Yifan He Shaozi Li 3DH 72 0 0 07 Dec 2023
Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling Shentong Mo Pedro Morgado 80 14 0 02 Dec 2023
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything Yunyang Xiong Bala Varadarajan Lemeng Wu Xiaoyu Xiang Fanyi Xiao ... Dilin Wang Fei Sun Forrest N. Iandola Raghuraman Krishnamoorthi Vikas Chandra VLM 107 157 0 01 Dec 2023
Pair-wise Layer Attention with Spatial Masking for Video Prediction Ping Li Chenhan Zhang Zheng Yang Xianghua Xu Mingli Song 68 0 0 19 Nov 2023
From Pretext to Purpose: Batch-Adaptive Self-Supervised Learning Jiansong Zhang Linlin Shen Peizhong Liu SSL 52 0 0 16 Nov 2023
Asymmetric Masked Distillation for Pre-Training Small Foundation Models Zhiyu Zhao Bingkun Huang Sen Xing Gangshan Wu Yu Qiao Limin Wang 74 5 0 06 Nov 2023