Revisiting Weakly Supervised Pre-Training of Visual Perception Models

20 January 2022

Mannat Singh

Laura Gustafson

Aaron B. Adcock

Vinicius de Freitas Reis

Piotr Dollár

L. V. D. van der Maaten

VLM

ArXiv PDF HTML

Papers citing "Revisiting Weakly Supervised Pre-Training of Visual Perception Models"

31 / 31 papers shown

Title
SimMIL: A Universal Weakly Supervised Pre-Training Framework for Multi-Instance Learning in Whole Slide Pathology Images Yicheng Song Tiancheng Lin Die Peng Su Yang Yi Xu MedIm 31 0 0 10 May 2025
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers Quentin Guimard Moreno DÍncà Massimiliano Mancini Elisa Ricci SSL 72 0 0 29 Apr 2025
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations Benedikt Alkin Lukas Miklautz Sepp Hochreiter Johannes Brandstetter VLM 71 8 0 24 Feb 2025
PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection Tianhao Zhang Zhixiang Chen Lyudmila Mihaylova 131 0 0 27 Oct 2024
UnLearning from Experience to Avoid Spurious Correlations Jeff Mitchell Jesús Martínez del Rincón Niall McLaughlin 36 0 0 04 Sep 2024
Feature contamination: Neural networks learn uncorrelated features and fail to generalize Tianren Zhang Chujie Zhao Guanyu Chen Yizhou Jiang Feng Chen OOD MLT OODD 77 3 0 05 Jun 2024
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data Sachin Mehta Maxwell Horton Fartash Faghri Mohammad Hossein Sekhavat Mahyar Najibi Mehrdad Farajtabar Oncel Tuzel Mohammad Rastegari VLM CLIP 41 6 0 24 Apr 2024
Enhancing Small Object Encoding in Deep Neural Networks: Introducing Fast&Focused-Net with Volume-wise Dot Product Layer Tofik Ali Partha Pratim Roy ObjD 30 2 0 18 Jan 2024
Synthetic Shifts to Initial Seed Vector Exposes the Brittle Nature of Latent-Based Diffusion Models Poyuan Mao Shashank Kotyan Tham Yik Foong Danilo Vasconcellos Vargas 26 5 0 24 Nov 2023
Efficient Discovery and Effective Evaluation of Visual Perceptual Similarity: A Benchmark and Beyond Oren Barkan Tal Reiss Jonathan Weill Ori Katz Roy Hirsch Itzik Malkiel Noam Koenigstein 42 6 0 28 Aug 2023
DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity Melissa Hall Candace Ross Adina Williams Nicolas Carion M. Drozdzal Adriana Romero Soriano EGVM 24 5 0 11 Aug 2023
Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers Hongjie Wang Bhishma Dedhia N. Jha ViT VLM 41 26 0 27 May 2023
Are Deep Neural Networks Adequate Behavioural Models of Human Visual Perception? Felix Wichmann Robert Geirhos 32 25 0 26 May 2023
DINOv2: Learning Robust Visual Features without Supervision Maxime Oquab Timothée Darcet Théo Moutakanni Huy Q. Vo Marc Szafraniec ... Hervé Jégou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski VLM CLIP SSL 110 3,041 0 14 Apr 2023
Vision Transformers with Mixed-Resolution Tokenization Tomer Ronen Omer Levy A. Golbert ViT 11 21 0 01 Apr 2023
CiT: Curation in Training for Effective Vision-Language Data Hu Xu Saining Xie Po-Yao (Bernie) Huang Licheng Yu Russ Howes Gargi Ghosh Luke Zettlemoyer Christoph Feichtenhofer VLM DiffM 33 24 0 05 Jan 2023
You Only Need a Good Embeddings Extractor to Fix Spurious Correlations Raghav Mehta Vítor Albiero Li Chen Ivan Evtimov Tamar Glaser Zhiheng Li Tal Hassner 26 17 0 12 Dec 2022
A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others Zhiheng Li Ivan Evtimov Albert Gordo C. Hazirbas Tal Hassner Cristian Canton Ferrer Chenliang Xu Mark Ibrahim 34 71 0 09 Dec 2022
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information Weijie Su Xizhou Zhu Chenxin Tao Lewei Lu Bin Li Gao Huang Yu Qiao Xiaogang Wang Jie Zhou Jifeng Dai 39 41 0 17 Nov 2022
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions Wenhai Wang Jifeng Dai Zhe Chen Zhenhang Huang Zhiqi Li ... Tong Lu Lewei Lu Hongsheng Li Xiaogang Wang Yu Qiao VLM 36 657 0 10 Nov 2022
Token Merging: Your ViT But Faster Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman MoMe 39 417 0 17 Oct 2022
Towards Out-of-Distribution Adversarial Robustness Adam Ibrahim Charles Guille-Escuret Ioannis Mitliagkas Irina Rish David M. Krueger P. Bashivan OOD 31 6 0 06 Oct 2022
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning Weicong Liang Yuhui Yuan Henghui Ding Xiao Luo Weihong Lin Ding Jia Zheng-Wei Zhang Chao Zhang Hanhua Hu 29 25 0 03 Oct 2022
On the Strong Correlation Between Model Invariance and Generalization Weijian Deng Stephen Gould Liang Zheng OOD 32 16 0 14 Jul 2022
The developmental trajectory of object recognition robustness: children are like small adults but unlike big deep neural networks Lukas Huber Robert Geirhos Felix Wichmann 54 16 0 20 May 2022
Domain Generalization by Mutual-Information Regularization with Pre-trained Models Junbum Cha Kyungjae Lee Sungrae Park Sanghyuk Chun OOD 26 131 0 21 Mar 2022
Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains X. Zhang S. Gu Yutaka Matsuo Yusuke Iwasawa VLM 38 36 0 25 Nov 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 317 5,785 0 29 Apr 2021
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 181 687 0 22 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 301 3,700 0 11 Feb 2021
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,220 0 16 Nov 2016