Learning Visual Features from Large Weakly Supervised Data

6 November 2015

Armand Joulin

L. V. D. van der Maaten

Papers citing "Learning Visual Features from Large Weakly Supervised Data"

50 / 86 papers shown

Title
A Comprehensive Survey of Foundation Models in Medicine Wasif Khan Seowung Leem Kyle B. See Joshua K. Wong Shaoting Zhang R. Fang AI4CE LM&MA VLM 105 18 0 17 Jan 2025
TIPS: Text-Image Pretraining with Spatial awareness Kevis-Kokitsi Maninis Kaifeng Chen Soham Ghosh Arjun Karpur Koert Chen ... Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo VLM 35 3 0 21 Oct 2024
Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations Samyak Rawlekar Shubhang Bhatnagar Narendra Ahuja VLM 31 1 0 12 Sep 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-xiong Wang 75 15 0 05 Sep 2024
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion Xingyuan Li Yang Zou Jinyuan Liu Zhiying Jiang Long Ma Xin-Yue Fan Risheng Liu 51 4 0 31 Dec 2023
SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing Zhecheng Wang R. Prabha Tianyuan Huang Jiajun Wu Ram Rajagopal 34 53 0 20 Dec 2023
Multi-modal Extreme Classification Anshul Mittal Kunal Dahiya Shreya Malani Janani Ramaswamy Seba Kuruvilla Jitendra Ajmera Keng-hao Chang Sumeet Agarwal Purushottam Kar Manik Varma 23 8 0 10 Sep 2023
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization Hanqiu Deng Zhaoxiang Zhang Jinan Bao Xingyu Li VLM 27 4 0 30 Aug 2023
Text-Only Training for Visual Storytelling Yuechen Wang Wen-gang Zhou Zhenbo Lu Houqiang Li DiffM 28 2 0 17 Aug 2023
DeepScribe: Localization and Classification of Elamite Cuneiform Signs Via Deep Learning Edward C. Williams Grace Su Sandra R. Schloen Miller C. Prosser Susanne Paulus S.Rohith Krishnan 21 3 0 02 Jun 2023
Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation Xuanli He Qiongkai Xu Jun Wang Benjamin I. P. Rubinstein Trevor Cohn AAML 32 18 0 19 May 2023
DINOv2: Learning Robust Visual Features without Supervision Maxime Oquab Timothée Darcet Théo Moutakanni Huy Q. Vo Marc Szafraniec ... Hervé Jégou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski VLM CLIP SSL 110 3,041 0 14 Apr 2023
RECLIP: Resource-efficient CLIP by Training with Small Images Runze Li Dahun Kim B. Bhanu Weicheng Kuo VLM CLIP 30 13 0 12 Apr 2023
Learning to Name Classes for Vision and Language Models Sarah Parisot Yongxin Yang Steven G. McDonagh VLM 17 10 0 04 Apr 2023
Uncertainty Injection: A Deep Learning Method for Robust Optimization W. Cui Wei Yu UQCV OOD 14 6 0 23 Feb 2023
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models Zhiqiu Lin Samuel Yu Zhiyi Kuang Deepak Pathak Deva Ramana VLM 20 100 0 16 Jan 2023
EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata Chenhao Zheng Ayush Shrivastava Andrew Owens VLM 28 11 0 11 Jan 2023
Universal Object Detection with Large Vision Model Feng-Huei Lin Wenze Hu Yaowei Wang Yonghong Tian Guangming Lu Fanglin Chen Yong-mei Xu Xiaoyu Wang VLM ObjD 32 8 0 19 Dec 2022
Learning from Training Dynamics: Identifying Mislabeled Data Beyond Manually Designed Features Qingrui Jia Xuhong Li Lei Yu Jiang Bian Penghao Zhao Shupeng Li Haoyi Xiong Dejing Dou NoLa 35 5 0 19 Dec 2022
Metaphors We Learn By Roland Memisevic 24 0 0 11 Nov 2022
MedCLIP: Contrastive Learning from Unpaired Medical Images and Text Zifeng Wang Zhenbang Wu Dinesh Agarwal Jimeng Sun CLIP VLM MedIm 46 399 0 18 Oct 2022
Is synthetic data from generative models ready for image recognition? Ruifei He Shuyang Sun Xin Yu Chuhui Xue Wenqing Zhang Philip H. S. Torr Song Bai Xiaojuan Qi 37 285 0 14 Oct 2022
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models Weicheng Kuo Huayu Chen Xiuye Gu A. Piergiovanni A. Angelova MLLM VLM ObjD 49 134 0 30 Sep 2022
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations Ximeng Sun Ping Hu Kate Saenko VLM 33 119 0 20 Jun 2022
Detecting Label Errors by using Pre-Trained Language Models Derek Chong Jenny Hong Christopher D. Manning NoLa 38 21 0 25 May 2022
Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels Tianshui Chen Tao Pu Lingbo Liu Yukai Shi Zhijing Yang Liang Lin 50 17 0 23 May 2022
P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision Henghui Zhao Isma Hadji Nikita Dvornik Konstantinos G. Derpanis Richard P. Wildes Allan D. Jepson 28 45 0 04 May 2022
Multi-View Transformer for 3D Visual Grounding Shijia Huang Yilun Chen Jiaya Jia Liwei Wang 22 112 0 05 Apr 2022
Creating Multimedia Summaries Using Tweets and Videos Anietie U Andy Siyi Liu Daphne Ippolito Reno Kriz Chris Callison-Burch Derry Wijaya 18 0 0 16 Mar 2022
X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation Yinan He Gengshi Huang Siyu Chen Jianing Teng Wang Kun Zhen-fei Yin Lu Sheng Ziwei Liu Yu Qiao Jing Shao VLM SSL ViT 40 7 0 16 Mar 2022
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability Ruifei He Shuyang Sun Jihan Yang Song Bai Xiaojuan Qi 29 36 0 10 Mar 2022
Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning Weixin Liang Yuhui Zhang Yongchan Kwon Serena Yeung James Zou VLM 40 388 0 03 Mar 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 189 499 0 22 Feb 2022
A Survey on Visual Transfer Learning using Knowledge Graphs Sebastian Monka Lavdim Halilaj Achim Rettinger 19 23 0 27 Jan 2022
The CLEAR Benchmark: Continual LEArning on Real-World Imagery Zhiqiu Lin Jia Shi Deepak Pathak Deva Ramanan CLL VLM 145 91 0 17 Jan 2022
A Fistful of Words: Learning Transferable Visual Models from Bag-of-Words Supervision Ajinkya Tejankar Maziar Sanjabi Bichen Wu Saining Xie Madian Khabsa Hamed Pirsiavash Hamed Firooz VLM 29 17 0 27 Dec 2021
SLIP: Self-supervision meets Language-Image Pre-training Norman Mu Alexander Kirillov David A. Wagner Saining Xie VLM CLIP 60 479 0 23 Dec 2021
Structured Semantic Transfer for Multi-Label Recognition with Partial Labels Tianshui Chen Tao Pu Hefeng Wu Yuan Xie Liang Lin 17 57 0 21 Dec 2021
Are Large-scale Datasets Necessary for Self-Supervised Pre-training? Alaaeldin El-Nouby Gautier Izacard Hugo Touvron Ivan Laptev Hervé Jégou Edouard Grave SSL 27 148 0 20 Dec 2021
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 40 555 0 16 Dec 2021
CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision A. Shrivastava Ramprasaath R. Selvaraju Nikhil Naik Vicente Ordonez VLM CLIP 30 6 0 14 Dec 2021
Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm Yangguang Li Feng Liang Lichen Zhao Yufeng Cui Wanli Ouyang Jing Shao F. Yu Junjie Yan VLM CLIP 29 443 0 11 Oct 2021
Objects in Semantic Topology Shuo Yang Pei Sun Yi-Xin Jiang Xiaobo Xia Ruiheng Zhang Zehuan Yuan Changhu Wang Ping Luo Min Xu ObjD 89 29 0 06 Oct 2021
CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation Aditya Sanghi Hang Chu Joseph G. Lambourne Ye Wang Chin-Yi Cheng Marco Fumero Kamal Rahimi Malekshan CLIP 40 289 0 06 Oct 2021
EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling Jue Wang Haofan Wang Jincan Deng Weijia Wu Debing Zhang VLM CLIP 64 18 0 10 Sep 2021
Rethinking Crowdsourcing Annotation: Partial Annotation with Salient Labels for Multi-Label Image Classification Jianzhe Lin Tianze Yu Z. J. Wang 16 10 0 06 Sep 2021
Learning to Generate Scene Graph from Natural Language Supervision Yiwu Zhong Jing Shi Jianwei Yang Chenliang Xu Yin Li SSL 36 77 0 06 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 345 2,271 0 02 Sep 2021
LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision Zhijian Liu Simon Stent Jie Li John Gideon Song Han VLM 25 10 0 26 Aug 2021
BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning Jinyuan Jia Yupei Liu Neil Zhenqiang Gong SILM SSL 24 151 0 01 Aug 2021