Towards Cross-modal Backward-compatible Representation Learning for
Vision-Language Models

Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models

23 May 2024

Young Kyun Jang

Ser-nam Lim

Papers citing "Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models"

7 / 7 papers shown

Title
Text-Only Training for Image Captioning using Noise-Injected CLIP David Nukrai Ron Mokady Amir Globerson VLM CLIP 60 94 0 01 Nov 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
One Loss for All: Deep Hashing with a Single Cosine Similarity based Learning Objective Jiun Tian Hoe KamWoh Ng Tianyu Zhang Chee Seng Chan Yi-Zhe Song Tao Xiang MQ 35 110 0 29 Sep 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,848 0 18 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 304 3,708 0 11 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 296 39,198 0 01 Sep 2014