X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

X $^2$ -VLM: All-In-One Pre-trained Model For Vision-Language Tasks

22 November 2022

Hkust Wangchunshu Zhou

Papers citing "X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks"

14 / 14 papers shown

Title
Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AI Shengdong Xu Zhouyang Chi Yang Yang 24 0 0 26 Mar 2024
Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy Simon Ging M. A. Bravo Thomas Brox VLM 46 11 0 11 Feb 2024
Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering Haopeng Li Qiuhong Ke Mingming Gong Tom Drummond 39 1 0 03 Jan 2024
Vision-Language Foundation Models as Effective Robot Imitators Xinghang Li Minghuan Liu Hanbo Zhang Cunjun Yu Jie Xu ... Ya Jing Weinan Zhang Huaping Liu Hang Li Tao Kong LM&Ro 31 139 0 02 Nov 2023
ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense Kankan Zhou Eason Lai Wei Bin Au Yeong K. Mouratidis Jing Jiang ReLM LRM VLM 25 19 0 30 Oct 2023
RLIPv2: Fast Scaling of Relational Language-Image Pre-training Hangjie Yuan Shiwei Zhang Xiang Wang Samuel Albanie Yining Pan Tao Feng Jianwen Jiang Dong Ni Yingya Zhang Deli Zhao VLM 21 38 0 18 Aug 2023
Vision Language Transformers: A Survey Clayton Fields C. Kennington VLM 28 5 0 06 Jul 2023
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks Xinsong Zhang Yan Zeng Jipeng Zhang Hang Li VLM AI4CE LRM 19 17 0 12 Jan 2023
Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training Yan Zeng Wangchunshu Zhou Ao Luo Ziming Cheng Xinsong Zhang VLM 27 30 0 01 Jun 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 392 4,154 0 28 Jan 2022
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation Yongfei Liu Chenfei Wu Shao-Yen Tseng Vasudev Lal Xuming He Nan Duan CLIP VLM 53 28 0 22 Sep 2021
MURAL: Multimodal, Multitask Retrieval Across Languages Aashi Jain Mandy Guo Krishna Srinivasan Ting-Li Chen Sneha Kudugunta Chao Jia Yinfei Yang Jason Baldridge VLM 115 52 0 10 Sep 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 296 1,084 0 17 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 283 1,984 0 09 Feb 2021