Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm

11 October 2021

Wanli Ouyang

Papers citing "Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm"

50 / 324 papers shown

Title
Delving into Out-of-Distribution Detection with Vision-Language Representations Yifei Ming Ziyan Cai Jiuxiang Gu Yiyou Sun W. Li Yixuan Li VLM OODD 61 159 0 24 Nov 2022
VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval Siteng Huang Biao Gong Yulin Pan Jianwen Jiang Yiliang Lv Yuyuan Li Donglin Wang VLM VPVLM 22 41 0 23 Nov 2022
Texts as Images in Prompt Tuning for Multi-Label Image Recognition Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo W. Zuo VLM VPVLM 28 57 0 23 Nov 2022
Teaching Structured Vision&Language Concepts to Vision&Language Models Sivan Doveh Assaf Arbelle Sivan Harary Yikang Shen Roei Herzig ... Donghyun Kim Raja Giryes Rogerio Feris S. Ullman Leonid Karlinsky VLM CoGe 56 70 0 21 Nov 2022
Multitask Vision-Language Prompt Tuning Sheng Shen Shijia Yang Tianjun Zhang Bohan Zhai Joseph E. Gonzalez Kurt Keutzer Trevor Darrell VLM VPVLM 19 49 0 21 Nov 2022
Leveraging per Image-Token Consistency for Vision-Language Pre-training Yunhao Gou Tom Ko Hansi Yang James T. Kwok Yu Zhang Mingxuan Wang VLM 16 10 0 20 Nov 2022
Task Residual for Tuning Vision-Language Models Tao Yu Zhihe Lu Xin Jin Zhibo Chen Xinchao Wang VLM CLIP 24 82 0 18 Nov 2022
ConStruct-VL: Data-Free Continual Structured VL Concepts Learning James Smith Paola Cascante-Bonilla Assaf Arbelle Donghyun Kim Yikang Shen David D. Cox Diyi Yang Z. Kira Rogerio Feris Leonid Karlinsky VLM 47 20 0 17 Nov 2022
PromptCap: Prompt-Guided Task-Aware Image Captioning Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A. Smith Jiebo Luo 51 101 0 15 Nov 2022
ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations Chanda Grover Indra Deep Mastan Debayan Gupta VLM CLIP 24 4 0 14 Nov 2022
MedCLIP: Contrastive Learning from Unpaired Medical Images and Text Zifeng Wang Zhenbang Wu Dinesh Agarwal Jimeng Sun CLIP VLM MedIm 49 401 0 18 Oct 2022
Non-Contrastive Learning Meets Language-Image Pre-Training Jinghao Zhou Li Dong Zhe Gan Lijuan Wang Furu Wei VLM CLIP 25 26 0 17 Oct 2022
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP Feng Liang Bichen Wu Xiaoliang Dai Kunpeng Li Yinan Zhao Hang Zhang Peizhao Zhang Peter Vajda Diana Marculescu CLIP VLM 37 434 0 09 Oct 2022
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment Shraman Pramanick Li Jing Sayan Nag Jiachen Zhu Hardik Shah Yann LeCun Ramalingam Chellappa 32 21 0 09 Oct 2022
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models Adrian Bulat Georgios Tzimiropoulos VLM VPVLM 10 46 0 03 Oct 2022
REST: REtrieve & Self-Train for generative action recognition Adrian Bulat Enrique Sanchez Brais Martínez Georgios Tzimiropoulos VLM 29 4 0 29 Sep 2022
UniCLIP: Unified Framework for Contrastive Language-Image Pre-training Janghyeon Lee Jongsuk Kim Hyounguk Shon Bumsoo Kim Seung Wook Kim Honglak Lee Junmo Kim CLIP VLM 54 53 0 27 Sep 2022
Exploring Inconsistent Knowledge Distillation for Object Detection with Data Augmentation Jiawei Liang Siyuan Liang Aishan Liu Ke Ma Jingzhi Li Xiaochun Cao VLM 50 15 0 20 Sep 2022
GAMA: Generative Adversarial Multi-Object Scene Attacks Abhishek Aich Calvin-Khang Ta Akash Gupta Chengyu Song S. Krishnamurthy M. Salman Asif A. Roy-Chowdhury AAML 51 17 0 20 Sep 2022
A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language Bing-Huang Su Dazhao Du Zhao-Qing Yang Yujie Zhou Jiangmeng Li Anyi Rao Haoran Sun Zhiwu Lu Ji-Rong Wen 46 108 0 12 Sep 2022
FETA: Towards Specializing Foundation Models for Expert Task Applications Amit Alfassy Assaf Arbelle Oshri Halimi Sivan Harary Roei Herzig ... Christoph Auer Kate Saenko Peter W. J. Staar Rogerio Feris Leonid Karlinsky 23 19 0 08 Sep 2022
Design of the topology for contrastive visual-textual alignment Zhun Sun 30 1 0 05 Sep 2022
Injecting Image Details into CLIP's Feature Space Zilun Zhang Cuifeng Shen Yuan-Chung Shen Huixin Xiong Xinyu Zhou VLM CLIP 30 0 0 31 Aug 2022
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment Mustafa Shukor Guillaume Couairon Matthieu Cord VLM CLIP 24 27 0 29 Aug 2022
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining Xiaoyi Dong Jianmin Bao Yinglin Zheng Ting Zhang Dongdong Chen ... Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu CLIP VLM 54 158 0 25 Aug 2022
PromptFL: Let Federated Participants Cooperatively Learn Prompts Instead of Models -- Federated Learning in Age of Foundation Model Tao Guo Song Guo Junxiao Wang Wenchao Xu FedML VLM LRM 16 110 0 24 Aug 2022
Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model Yinghui Xing Qirui Wu De-Chun Cheng Shizhou Zhang Guoqiang Liang Peng Wang Yanning Zhang VLM VPVLM 56 51 0 17 Aug 2022
MILAN: Masked Image Pretraining on Language Assisted Representation Zejiang Hou Fei Sun Yen-kuang Chen Yuan Xie S. Kung ViT 34 68 0 11 Aug 2022
Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP Thao Nguyen Gabriel Ilharco Mitchell Wortsman Sewoong Oh Ludwig Schmidt CLIP VLM 47 99 0 10 Aug 2022
Fine-Grained Semantically Aligned Vision-Language Pre-Training Juncheng Li Xin He Longhui Wei Long Qian Linchao Zhu Lingxi Xie Yueting Zhuang Qi Tian Siliang Tang VLM 41 79 0 04 Aug 2022
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training Haoxuan You Luowei Zhou Bin Xiao Noel Codella Yu Cheng Ruochen Xu Shih-Fu Chang Lu Yuan CLIP VLM 27 47 0 26 Jul 2022
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification Renrui Zhang Zhang Wei Rongyao Fang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 35 293 0 19 Jul 2022
Is a Caption Worth a Thousand Images? A Controlled Study for Representation Learning Shibani Santurkar Yann Dubois Rohan Taori Percy Liang Tatsunori Hashimoto CLIP VLM 19 41 0 15 Jul 2022
Contrastive Adapters for Foundation Model Group Robustness Michael Zhang Christopher Ré VLM 18 62 0 14 Jul 2022
IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training Xinyu Huang Youcai Zhang Ying Cheng Weiwei Tian Ruiwei Zhao Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Xuanyang Zhang VLM 21 14 0 12 Jul 2022
e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce Wonyoung Shin Jonghun Park Taekang Woo Yongwoo Cho Kwangjin Oh Hwanjun Song VLM 27 16 0 01 Jul 2022
CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal Pose Xu Zhang Wen Wang Zhe Chen Yufei Xu Jing Zhang Dacheng Tao CLIP VLM 22 25 0 23 Jun 2022
ProtoCLIP: Prototypical Contrastive Language Image Pretraining Delong Chen Zhao Wu Fan Liu Zaiquan Yang Huaxi Huang Ying Tan Erjin Zhou VLM CLIP 27 28 0 22 Jun 2022
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang ... Ce Liu Yann LeCun Nanyun Peng Jianfeng Gao Lijuan Wang VLM ObjD 30 124 0 15 Jun 2022
Self-Supervision on Images and Text Reduces Reliance on Visual Shortcut Features Anil Palepu Andrew L. Beam OOD VLM 26 5 0 14 Jun 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 72 528 0 13 Jun 2022
Compositional Mixture Representations for Vision and Text Stephan Alaniz Marco Federici Zeynep Akata CoGe OCL VLM 17 2 0 13 Jun 2022
INDIGO: Intrinsic Multimodality for Domain Generalization Puneet Mangla Shivam Chandhok Milan Aggarwal V. Balasubramanian Balaji Krishnamurthy VLM 41 2 0 13 Jun 2022
Masked Unsupervised Self-training for Label-free Image Classification Junnan Li Silvio Savarese Steven C. H. Hoi VLM SSL 18 12 0 07 Jun 2022
Delving into the Openness of CLIP Shuhuai Ren Lei Li Xuancheng Ren Guangxiang Zhao Xu Sun VLM 25 13 0 04 Jun 2022
Prefix Conditioning Unifies Language and Label Supervision Kuniaki Saito Kihyuk Sohn Xinming Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister VLM CLIP 34 16 0 02 Jun 2022
CyCLIP: Cyclic Contrastive Language-Image Pretraining Shashank Goel Hritik Bansal S. Bhatia Ryan A. Rossi Vishwa Vinay Aditya Grover CLIP VLM 184 133 0 28 May 2022
Multimodal Masked Autoencoders Learn Transferable Representations Xinyang Geng Hao Liu Lisa Lee Dale Schuurams Sergey Levine Pieter Abbeel 26 114 0 27 May 2022
Utilizing Language-Image Pretraining for Efficient and Robust Bilingual Word Alignment Tuan Dinh Jy-yong Sohn Shashank Rajput Timothy Ossowski Yifei Ming Junjie Hu Dimitris Papailiopoulos Kangwook Lee 28 0 0 23 May 2022
Breaking with Fixed Set Pathology Recognition through Report-Guided Contrastive Training C. Seibold Simon Reiß M. Sarfraz Rainer Stiefelhagen Jens Kleesiek 21 31 0 14 May 2022