Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training

30 March 2024

Papers citing "Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training"

3 / 3 papers shown

Title
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 320 4,300 0 30 Jan 2023
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering Xiaofei Huang Hongfang Gong MedIm 66 12 0 01 Oct 2022
Building Chinese Biomedical Language Models via Multi-Level Text Discrimination Quan Wang Songtai Dai Benfeng Xu Yajuan Lyu Yong Zhu Hua Wu Haifeng Wang 71 14 0 14 Oct 2021