Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
Pre-training

v1v2v3 (latest)

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

16 August 2019

ArXiv (abs)PDF HTML

Papers citing "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"

12 / 512 papers shown

Title
Learning to Learn Words from Visual Scenes Dídac Surís Dave Epstein Heng Ji Shih-Fu Chang Carl Vondrick VLM CLIP SSL OffRL 70 4 0 25 Nov 2019
Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA Ronghang Hu Amanpreet Singh Trevor Darrell Marcus Rohrbach 94 197 0 14 Nov 2019
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications Chao Zhang Zichao Yang Xiaodong He Li Deng HAI AI4TS 122 337 0 10 Nov 2019
Probing Contextualized Sentence Representations with Visual Awareness Zhuosheng Zhang Rui Wang Kehai Chen Masao Utiyama Eiichiro Sumita Hai Zhao 77 2 0 07 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain Alex Schwing LRM ReLM 102 9 0 31 Oct 2019
UNITER: UNiversal Image-TExt Representation Learning Yen-Chun Chen Linjie Li Licheng Yu Ahmed El Kholy Faisal Ahmed Zhe Gan Yu Cheng Jingjing Liu VLM OT 134 449 0 25 Sep 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 363 948 0 24 Sep 2019
VL-BERT: Pre-training of Generic Visual-Linguistic Representations Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei Jifeng Dai VLM MLLM SSL 294 1,672 0 22 Aug 2019
Fusion of Detected Objects in Text for Visual Question Answering Chris Alberti Jeffrey Ling Michael Collins David Reitter 95 173 0 14 Aug 2019
CRIC: A VQA Dataset for Compositional Reasoning on Vision and Commonsense Difei Gao Ruiping Wang Shiguang Shan Xilin Chen CoGe LRM 129 28 0 08 Aug 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 320 3,716 0 06 Aug 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 141 136 0 22 Jul 2019