Multi-modality Latent Interaction Network for Visual Question Answering

10 August 2019

Papers citing "Multi-modality Latent Interaction Network for Visual Question Answering"

20 / 20 papers shown

Title
Hadamard product in deep learning: Introduction, Advances and Challenges Grigorios G. Chrysos Yongtao Wu Razvan Pascanu Philip Torr V. Cevher AAML 98 0 0 17 Apr 2025
Visual Question Generation in Bengali Mahmud Hasan Labiba Islam J. Ruma T. Mayeesha Rashedur Rahman 24 1 0 12 Oct 2023
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering Feiqi Cao Siwen Luo F. Núñez Zean Wen Josiah Poon Caren Han GNN 26 4 0 16 Dec 2022
Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets Anurag Roy David Johnson Ekka Saptarshi Ghosh Abir Das 23 1 0 13 Oct 2022
Interactive Question Answering Systems: Literature Review Giovanni Maria Biancofiore Yashar Deldjoo Tommaso Di Noia E. Sciascio Fedelucio Narducci 34 13 0 04 Sep 2022
Question-Driven Graph Fusion Network For Visual Question Answering Yuxi Qian Yuncong Hu Ruonan Wang Fangxiang Feng Xiaojie Wang GNN 18 10 0 03 Apr 2022
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering K. Gouthaman Anurag Mittal CML 45 0 0 28 Aug 2021
Scalable Transformers for Neural Machine Translation Peng Gao Shijie Geng Yu Qiao Xiaogang Wang Jifeng Dai Hongsheng Li 31 13 0 04 Jun 2021
Dual-stream Network for Visual Recognition Mingyuan Mao Renrui Zhang Honghui Zheng Peng Gao Teli Ma Yan Peng Errui Ding Baochang Zhang Shumin Han ViT 25 63 0 31 May 2021
What is Multimodality? Letitia Parcalabescu Nils Trost Anette Frank 21 0 0 10 Mar 2021
Latent Variable Models for Visual Question Answering Zixu Wang Yishu Miao Lucia Specia 25 5 0 16 Jan 2021
End-to-End Object Detection with Adaptive Clustering Transformer Minghang Zheng Peng Gao Renrui Zhang Kunchang Li Xiaogang Wang Hongsheng Li Hao Dong ViT 22 193 0 18 Nov 2020
Learning to Respond with Your Favorite Stickers: A Framework of Unifying Multi-Modality and User Preference in Multi-Turn Dialog Shen Gao Xiuying Chen Li Liu Dongyan Zhao Rui Yan 24 14 0 05 Nov 2020
Visual Question Answering on Image Sets Ankan Bansal Yuting Zhang Rama Chellappa CoGe 10 40 0 27 Aug 2020
HAMLET: A Hierarchical Multimodal Attention-based Human Activity Recognition Algorithm Md. Mofijul Islam Tariq Iqbal 22 80 0 03 Aug 2020
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder K. Gouthaman Anurag Mittal 47 78 0 13 Jul 2020
Character Matters: Video Story Understanding with Character-Aware Relations Shijie Geng Ji Zhang Zuohui Fu Peng Gao Hang Zhang Gerard de Melo 18 11 0 09 May 2020
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 120 189 0 19 Mar 2020
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Joey Tianyi Zhou VLM MLLM 81 2,450 0 20 Aug 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 158 1,464 0 06 Jun 2016