ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

30 June 2020

Papers citing "ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph"

8 / 208 papers shown

Title
Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes Niklas Muennighoff 8 64 0 14 Dec 2020
KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense Reasoning Dandan Song S. Ma Zhanchen Sun Sicheng Yang L. Liao SSL LRM 17 38 0 13 Dec 2020
MiniVLM: A Smaller and Faster Vision-Language Model Jianfeng Wang Xiaowei Hu Pengchuan Zhang Xiujun Li Lijuan Wang L. Zhang Jianfeng Gao Zicheng Liu VLM MLLM 32 59 0 13 Dec 2020
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs Emanuele Bugliarello Ryan Cotterell Naoaki Okazaki Desmond Elliott 35 119 0 30 Nov 2020
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions Liunian Harold Li Haoxuan You Zhecan Wang Alireza Zareian Shih-Fu Chang Kai-Wei Chang SSL VLM 72 12 0 24 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 23 6 0 19 Oct 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Image Generation from Scene Graphs Justin Johnson Agrim Gupta Li Fei-Fei GNN 223 815 0 04 Apr 2018