Unified Contrastive Learning in Image-Text-Label Space

7 April 2022

Jianwei Yang

Lu Yuan

Papers citing "Unified Contrastive Learning in Image-Text-Label Space"

50 / 165 papers shown

Title
Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality Jialing Yuan Ye Yu Gaurav Mittal Matthew Hall Sandra Sajeev Mei Chen 24 9 0 17 May 2023
Improved baselines for vision-language pre-training Enrico Fini Pietro Astolfi Adriana Romero Soriano Jakob Verbeek M. Drozdzal SSL CLIP VLM 53 22 0 15 May 2023
Towards Precise Weakly Supervised Object Detection via Interactive Contrastive Learning of Context Information Lai Qi ChiMan Vong WSOD 29 2 0 27 Apr 2023
A Strong and Reproducible Object Detector with Only Public Datasets Tianhe Ren Jianwei Yang Siyi Liu Ailing Zeng Feng Li Hao Zhang Hongyang Li Zhaoyang Zeng Lei Zhang ObjD 41 11 0 25 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 130 4,310 0 17 Apr 2023
Segment Everything Everywhere All at Once Xueyan Zou Jianwei Yang Hao Zhang Feng Li Linjie Li Jianfeng Wang Lijuan Wang Jianfeng Gao Yong Jae Lee MLLM VLM 9 458 0 13 Apr 2023
Linking Representations with Multimodal Contrastive Learning Abhishek Arora Xinmei Yang Shao-Yu Jheng Melissa Dell 33 1 0 07 Apr 2023
Vision-Language Models for Vision Tasks: A Survey Jingyi Zhang Jiaxing Huang Sheng Jin Shijian Lu VLM 43 486 0 03 Apr 2023
DIME-FM: DIstilling Multimodal and Efficient Foundation Models Ximeng Sun Pengchuan Zhang Peizhao Zhang Hardik Shah Kate Saenko Xide Xia VLM 25 20 0 31 Mar 2023
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 36 960 0 27 Mar 2023
WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation Jongheon Jeong Yang Zou Taewan Kim Dongqing Zhang Avinash Ravichandran Onkar Dabeer VLM 75 186 0 26 Mar 2023
Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data Paul Hager M. Menten Daniel Rueckert 29 47 0 24 Mar 2023
GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding Jihao Liu Tai Wang Boxiao Liu Qihang Zhang Yu Liu Hongsheng Li 38 16 0 20 Mar 2023
A Simple Framework for Open-Vocabulary Segmentation and Detection Hao Zhang Feng Li Xueyan Zou Siyi Liu Chun-yue Li Jianfeng Gao Jianwei Yang Lei Zhang ObjD VLM 22 150 0 14 Mar 2023
Towards General Purpose Medical AI: Continual Learning Medical Foundation Model Huahui Yi Ziyuan Qin Qicheng Lao Wei Xu Zekun Jiang Dequan Wang Shaoting Zhang Kang Li OOD MedIm CLL 22 11 0 12 Mar 2023
Towards Universal Vision-language Omni-supervised Segmentation Bowen Dong Jiaxi Gu Jianhua Han Hang Xu W. Zuo VLM 36 1 0 12 Mar 2023
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation Bang-ju Yang Fenglin Liu Yuexian Zou Xian Wu Yaowei Wang David A. Clifton 31 9 0 11 Mar 2023
DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only Training Wei Li Linchao Zhu Longyin Wen Yi Yang VLM 45 86 0 06 Mar 2023
CLIP-guided Prototype Modulating for Few-shot Action Recognition Xiang Wang Shiwei Zhang Jun Cen Changxin Gao Yingya Zhang Deli Zhao Nong Sang VLM 27 53 0 06 Mar 2023
The Trade-off between Universality and Label Efficiency of Representations from Contrastive Learning Zhenmei Shi Jiefeng Chen Kunyang Li Jayaram Raghuram Xi Wu Yingyu Liang S. Jha SSL 27 18 0 28 Feb 2023
Aligning Bag of Regions for Open-Vocabulary Object Detection Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy VLM ObjD 44 108 0 27 Feb 2023
Learning Customized Visual Models with Retrieval-Augmented Knowledge Haotian Liu Kilho Son Jianwei Yang Ce Liu Jianfeng Gao Yong Jae Lee Chunyuan Li VLM 40 53 0 17 Jan 2023
RILS: Masked Visual Reconstruction in Language Semantic Space Shusheng Yang Yixiao Ge Kun Yi Dian Li Ying Shan Xiaohu Qie Xinggang Wang CLIP 43 11 0 17 Jan 2023
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training Filip Radenovic Abhimanyu Dubey Abhishek Kadian Todor Mihaylov Simon Vandenhende Yash J. Patel Y. Wen Vignesh Ramanathan D. Mahajan VLM 40 82 0 05 Jan 2023
Generalized Decoding for Pixel, Image, and Language Xueyan Zou Zi-Yi Dou Jianwei Yang Zhe Gan Linjie Li ... Lu Yuan Nanyun Peng Lijuan Wang Yong Jae Lee Jianfeng Gao VLM MLLM ObjD 21 241 0 21 Dec 2022
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering Chenlu Zhan Peng Peng Hongsen Wang Tao Chen Hongwei Wang MedIm 23 3 0 21 Dec 2022
Attentive Mask CLIP Yifan Yang Weiquan Huang Yixuan Wei Houwen Peng Xinyang Jiang ... Fangyun Wei Yin Wang Han Hu Lili Qiu Yuqing Yang CLIP VLM 42 27 0 16 Dec 2022
Visually-augmented pretrained language models for NLP tasks without images Hangyu Guo Kun Zhou Wayne Xin Zhao Qinyu Zhang Ji-Rong Wen VLM 21 10 0 15 Dec 2022
VindLU: A Recipe for Effective Video-and-Language Pretraining Feng Cheng Xizi Wang Jie Lei David J. Crandall Joey Tianyi Zhou Gedas Bertasius VLM 35 79 0 09 Dec 2022
InternVideo: General Video Foundation Models via Generative and Discriminative Learning Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang ... Junting Pan Jiashuo Yu Yali Wang Limin Wang Yu Qiao VLM VGen 57 311 0 06 Dec 2022
ClipCrop: Conditioned Cropping Driven by Vision-Language Model Zhihang Zhong Mingxi Cheng Zhirong Wu Yuhui Yuan Yinqiang Zheng Ji Li Han Hu Stephen Lin Yoichi Sato Imari Sato VLM CLIP 35 3 0 21 Nov 2022
You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model Sheng Tang Yaqing Wang Zhenglun Kong Tianchi Zhang Yao Li Caiwen Ding Yanzhi Wang Yi Liang Dongkuan Xu 33 31 0 21 Nov 2022
Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks Hao Li Jinguo Zhu Xiaohu Jiang Xizhou Zhu Hongsheng Li ... Xiaohua Wang Yu Qiao Xiaogang Wang Wenhai Wang Jifeng Dai MLLM 26 55 0 17 Nov 2022
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision Sophia Gu Christopher Clark Aniruddha Kembhavi VLM 22 24 0 17 Nov 2022
Masked Reconstruction Contrastive Learning with Information Bottleneck Principle Ziwen Liu Bonan li Congying Han Tiande Guo Xuecheng Nie SSL 34 2 0 15 Nov 2022
Non-Contrastive Learning Meets Language-Image Pre-Training Jinghao Zhou Li Dong Zhe Gan Lijuan Wang Furu Wei VLM CLIP 25 26 0 17 Oct 2022
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment Shraman Pramanick Li Jing Sayan Nag Jiachen Zhu Hardik Shah Yann LeCun Ramalingam Chellappa 32 21 0 09 Oct 2022
Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study Ziyuan Qin Huahui Yi Qicheng Lao Kang Li VLM 36 65 0 30 Sep 2022
Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation Haoran Chen Xintong Han Zuxuan Wu Yu-Gang Jiang 94 25 0 30 Sep 2022
Understanding Pure CLIP Guidance for Voxel Grid NeRF Models Han-Hung Lee Angel X. Chang 24 63 0 30 Sep 2022
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks Junke Wang Dongdong Chen Zuxuan Wu Chong Luo Luowei Zhou Yucheng Zhao Yujia Xie Ce Liu Yu-Gang Jiang Lu Yuan MLLM VLM 38 149 0 15 Sep 2022
VIPHY: Probing "Visible" Physical Commonsense Knowledge Shikhar Singh Ehsan Qasemi Muhao Chen 46 6 0 15 Sep 2022
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining Xiaoyi Dong Jianmin Bao Yinglin Zheng Ting Zhang Dongdong Chen ... Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu CLIP VLM 54 158 0 25 Aug 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li YunLong Yu Zhong Ji Errui Ding Jingdong Wang 30 23 0 21 Aug 2022
Generative Action Description Prompts for Skeleton-based Action Recognition Wangmeng Xiang Chong Li Yuxuan Zhou Biao Wang Lei Zhang 40 35 0 10 Aug 2022
Self-supervised Multi-modal Training from Uncurated Image and Reports Enables Zero-shot Oversight Artificial Intelligence in Radiology Sangjoon Park Eunha Lee Kyung Sook Shin Jeonghyeon Lee Jong Chul Ye 33 2 0 10 Aug 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 103 93 0 04 Jul 2022
ProtoCLIP: Prototypical Contrastive Language Image Pretraining Delong Chen Zhao Wu Fan Liu Zaiquan Yang Huaxi Huang Ying Tan Erjin Zhou VLM CLIP 27 28 0 22 Jun 2022
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang ... Ce Liu Yann LeCun Nanyun Peng Jianfeng Gao Lijuan Wang VLM ObjD 30 124 0 15 Jun 2022
GLIPv2: Unifying Localization and Vision-Language Understanding Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Lei Li Jianfeng Gao ObjD VLM 24 290 0 12 Jun 2022