On the Efficacy of Co-Attention Transformer Layers in Visual Question Answering

11 January 2022

Papers citing "On the Efficacy of Co-Attention Transformer Layers in Visual Question Answering"

3 / 3 papers shown

Title
BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset Mohammad Faiyaz Khan S. M. S. Shifath Md. Saiful Islam 16 6 0 28 May 2022
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019