A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021

24 June 2021

Papers citing "A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021"

2 / 2 papers shown

Title
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 260 157 0 02 Jan 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019