Focal Visual-Text Attention for Visual Question Answering

Focal Visual-Text Attention for Visual Question Answering

5 June 2018

Alexander G. Hauptmann

Papers citing "Focal Visual-Text Attention for Visual Question Answering"

14 / 14 papers shown

Title
Personality-aware Human-centric Multimodal Reasoning: A New Task, Dataset and Baselines Yaochen Zhu Xiangqing Shen Rui Xia 26 5 0 05 Apr 2023
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 54 95 0 01 Jul 2021
Hierarchical Object-oriented Spatio-Temporal Reasoning for Video Question Answering Long Hoang Dang T. Le Vuong Le T. Tran 30 60 0 25 Jun 2021
Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries Swathikiran Sudhakaran Sergio Escalera Oswald Lanz EgoV 27 15 0 16 Feb 2021
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach Y. Liu Yangyang Guo Jianhua Yin Xuemeng Song Weifeng Liu Liqiang Nie 29 28 0 03 Feb 2021
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei Chen Weiping Wang Li Liu M. Lew VLM 118 31 0 16 Oct 2020
Visual Question Answering on Image Sets Ankan Bansal Yuting Zhang Rama Chellappa CoGe 16 40 0 27 Aug 2020
Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions Noa Garcia Yuta Nakashima 23 32 0 17 Jul 2020
Exploiting Temporal Relationships in Video Moment Localization with Natural Language Songyang Zhang Jinsong Su Jiebo Luo 12 74 0 11 Aug 2019
Adversarial Multimodal Network for Movie Question Answering Zhaoquan Yuan Siyuan Sun Lixin Duan Xiao Wu Changsheng Xu 24 3 0 24 Jun 2019
Holistic Multi-modal Memory Network for Movie Question Answering Anran Wang Anh Tuan Luu Chuan-Sheng Foo Erik Cambria Yi Tay V. Chandrasekhar 36 20 0 12 Nov 2018
Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions Qing Li Jianlong Fu D. Yu Tao Mei Jiebo Luo FAtt XAI CoGe 51 60 0 27 Jan 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,464 0 06 Jun 2016
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 264 13,368 0 25 Aug 2014