MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

29 January 2022

Xuanjing Huang

Papers citing "MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning"

3 / 3 papers shown

Title
FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues Shuang Li Jiahua Wang Lijie Wen LRM 31 0 0 29 Mar 2024
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 313 3,708 0 11 Feb 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019