Learning Visual Question Answering by Bootstrapping Hard Attention

1 August 2018

Papers citing "Learning Visual Question Answering by Bootstrapping Hard Attention"

24 / 24 papers shown

Title
MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing Siddhant Agarwal Shivam Sharma Preslav Nakov Tanmoy Chakraborty 24 4 0 18 May 2024
Unifying Global and Local Scene Entities Modelling for Precise Action Spotting Kim Hoang Tran Phuc Vuong Do Ngoc Quoc Ly Ngan Le 36 4 0 15 Apr 2024
What do you MEME? Generating Explanations for Visual Semantic Role Labelling in Memes Shivam Sharma Siddhant Agarwal Tharun Suresh Preslav Nakov Md. Shad Akhtar Tanmoy Charkraborty VLM 28 18 0 01 Dec 2022
AOE-Net: Entities Interactions Modeling with Adaptive Attention Mechanism for Temporal Action Proposals Generation Khoa T. Vo Sang Truong Kashu Yamazaki Bhiksha Raj Minh-Triet Tran Ngan Le 86 26 0 05 Oct 2022
Fair Inference for Discrete Latent Variable Models Rashidul Islam Shimei Pan James R. Foulds FaML 46 1 0 15 Sep 2022
A Spatio-Temporal Attentive Network for Video-Based Crowd Counting M. Avvenuti Marco Bongiovanni Luca Ciampi Fabrizio Falchi Claudio Gennaro Nicola Messina 31 9 0 24 Aug 2022
Co-VQA : Answering by Interactive Sub Question Sequence Ruonan Wang Yuxi Qian Fangxiang Feng Xiaojie Wang Huixing Jiang LRM 26 16 0 02 Apr 2022
A General Survey on Attention Mechanisms in Deep Learning Gianni Brauwers Flavius Frasincar 31 296 0 27 Mar 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 21 3 0 24 Feb 2022
Video Violence Recognition and Localization Using a Semi-Supervised Hard Attention Model Hamid Reza Mohammadi Ehsan Nazerfard 21 24 0 04 Feb 2022
Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning Piotr Pikekos Henryk Michalewski Mateusz Malinowski 30 28 0 07 Jun 2021
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach Y. Liu Yangyang Guo Jianhua Yin Xuemeng Song Weifeng Liu Liqiang Nie 29 28 0 03 Feb 2021
Kronecker Attention Networks Hongyang Gao Zhengyang Wang Shuiwang Ji 24 33 0 16 Jul 2020
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen 39 23 0 24 Apr 2020
Unsupervised High-Resolution Depth Learning From Videos With Dual Networks Junsheng Zhou Yuwang Wang K. Qin Wenjun Zeng MDE 29 71 0 20 Oct 2019
CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning Rohit Girdhar Deva Ramanan 19 176 0 10 Oct 2019
VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering Cătălina Cangea Eugene Belilovsky Pietro Lió Aaron Courville 16 16 0 14 Aug 2019
Graph Representation Learning via Hard and Channel-Wise Attention Networks Hongyang Gao Shuiwang Ji GNN 25 57 0 05 Jul 2019
Towards Interpretable Reinforcement Learning Using Attention Augmented Agents Alex Mott Daniel Zoran Mike Chrzanowski Daan Wierstra Danilo Jimenez Rezende 26 188 0 06 Jun 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 39 117 0 11 Apr 2019
Learning To Follow Directions in Street View Karl Moritz Hermann Mateusz Malinowski Piotr Wojciech Mirowski Andras Banki-Horvath Keith Anderson R. Hadsell SSL 18 66 0 01 Mar 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 17 82 0 01 Mar 2019
MUREL: Multimodal Relational Reasoning for Visual Question Answering Rémi Cadène H. Ben-younes Matthieu Cord Nicolas Thome LRM 19 271 0 25 Feb 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,464 0 06 Jun 2016