Stacked Attention Networks for Image Question Answering

7 November 2015

Li Deng

Papers citing "Stacked Attention Networks for Image Question Answering"

50 / 277 papers shown

Title
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder K. Gouthaman Anurag Mittal 50 78 0 13 Jul 2020
The Impact of Explanations on AI Competency Prediction in VQA Kamran Alipour Arijit Ray Xiaoyu Lin J. Schulze Yi Yao Giedrius Burachas 27 9 0 02 Jul 2020
Category-Specific CNN for Visual-aware CTR Prediction at JD.com Hu Liu Jing Lu Hao Yang Xiwei Zhao Sulong Xu ... Zehua Zhang Wenjie Niu Xiaokun Zhu Yongjun Bao Weipeng P. Yan 21 32 0 18 Jun 2020
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering Zihao Zhu Jiahao Yu Yujing Wang Yajing Sun Yue Hu Qi Wu 30 125 0 16 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 35 488 0 11 Jun 2020
Estimating semantic structure for the VQA answer space Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 26 4 0 10 Jun 2020
Counterfactual VQA: A Cause-Effect Look at Language Bias Yulei Niu Kaihua Tang Hanwang Zhang Zhiwu Lu Xiansheng Hua Ji-Rong Wen CML 56 394 0 08 Jun 2020
Hyperspectral Image Classification with Attention Aided CNNs Renlong Hang Zhu Li Qingshan Liu Pedram Ghamisi Shuvra S. Bhattacharyya 14 225 0 25 May 2020
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA Hyounghun Kim Zineng Tang Joey Tianyi Zhou 33 31 0 13 May 2020
Modeling Human Visual Search Performance on Realistic Webpages Using Analytical and Deep Learning Methods Arianna Yuan Yong Li HAI 25 24 0 07 May 2020
Exploring Self-attention for Image Recognition Hengshuang Zhao Jiaya Jia V. Koltun SSL 52 773 0 28 Apr 2020
Panoptic-based Image Synthesis Aysegül Dündar Karan Sapra Guilin Liu Andrew Tao Bryan Catanzaro 16 40 0 21 Apr 2020
Causal Interpretability for Machine Learning -- Problems, Methods and Evaluation Raha Moraffah Mansooreh Karami Ruocheng Guo A. Raglin Huan Liu CML ELM XAI 27 213 0 09 Mar 2020
Adaptive Offline Quintuplet Loss for Image-Text Matching Tianlang Chen Jiajun Deng Jiebo Luo 181 68 0 07 Mar 2020
Dropout: Explicit Forms and Capacity Control R. Arora Peter L. Bartlett Poorya Mianjy Nathan Srebro 64 37 0 06 Mar 2020
A Study on Multimodal and Interactive Explanations for Visual Question Answering Kamran Alipour J. Schulze Yi Yao Avi Ziskind Giedrius Burachas 32 27 0 01 Mar 2020
RP-DNN: A Tweet level propagation context based deep neural networks for early rumor detection in Social Media Jie Gao Sooji Han Xingyi Song F. Ciravegna 23 20 0 28 Feb 2020
An Attention Transfer Model for Human-Assisted Failure Avoidance in Robot Manipulations Boyi Song Yu-Tang Peng Ruijiao Luo R. Liu 11 2 0 11 Feb 2020
Weakly Supervised Few-shot Object Segmentation using Co-Attention with Visual and Semantic Embeddings Mennatullah Siam Naren Doraiswamy Boris N. Oreshkin Hengshuai Yao Martin Jägersand 26 8 0 26 Jan 2020
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models M. Farazi Salman H. Khan Nick Barnes 23 17 0 20 Jan 2020
Human-Aware Motion Deblurring Ziyi Shen Wenguan Wang Xiankai Lu Jianbing Shen Haibin Ling Tingfa Xu Ling Shao 3DH 27 284 0 19 Jan 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 23 318 0 10 Jan 2020
A Multimodal Target-Source Classifier with Attention Branches to Understand Ambiguous Instructions for Fetching Daily Objects A. Magassouba K. Sugiura Hisashi Kawai 38 9 0 23 Dec 2019
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing Vedika Agarwal Rakshith Shetty Mario Fritz CML AAML 32 155 0 16 Dec 2019
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 24 60 0 07 Dec 2019
Neural Machine Translation: A Review and Survey Felix Stahlberg 3DV AI4TS MedIm 20 312 0 04 Dec 2019
Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA Badri N. Patro Anupriy Vinay P. Namboodiri AAML FAtt 48 26 0 19 Nov 2019
Towards Making Deep Transfer Learning Never Hurt Ruosi Wan Haoyi Xiong Xingjian Li Zhanxing Zhu Jun Huan 30 21 0 18 Nov 2019
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang Jiahao Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 23 70 0 17 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain A. Schwing LRM ReLM 34 9 0 31 Oct 2019
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation Risto Vuorio Shao-Hua Sun Hexiang Hu Joseph J. Lim 30 219 0 30 Oct 2019
Automatic Reminiscence Therapy for Dementia Mariona Carós M. Garolera Petia Radeva Xavier Giró-i-Nieto 27 40 0 25 Oct 2019
Unsupervised High-Resolution Depth Learning From Videos With Dual Networks Junsheng Zhou Yuwang Wang K. Qin Wenjun Zeng MDE 29 71 0 20 Oct 2019
Cross Attention Network for Few-shot Classification Rui Hou Hong Chang Bingpeng Ma Shiguang Shan Xilin Chen 204 631 0 17 Oct 2019
Multi-modal Deep Analysis for Multimedia Wenwu Zhu Xin Wang Hongzhi Li 29 38 0 11 Oct 2019
REMIND Your Neural Network to Prevent Catastrophic Forgetting Tyler L. Hayes Kushal Kafle Robik Shrestha Manoj Acharya Christopher Kanan CLL 31 295 0 06 Oct 2019
Compact Trilinear Interaction for Visual Question Answering Tuong Khanh Long Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang-Dieu Tran 36 59 0 26 Sep 2019
Overcoming Data Limitation in Medical Visual Question Answering Binh Duc Nguyen Thanh-Toan Do Binh X. Nguyen Tuong Khanh Long Do Erman Tjiputra Quang-Dieu Tran MedIm 17 145 0 26 Sep 2019
Dynamic Graph Attention for Referring Expression Comprehension Sibei Yang Guanbin Li Yizhou Yu OCL 25 215 0 18 Sep 2019
Controllable Text-to-Image Generation Bowen Li Xiaojuan Qi Thomas Lukasiewicz Philip Torr GAN 37 350 0 16 Sep 2019
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao VLM 25 299 0 12 Sep 2019
Probabilistic framework for solving Visual Dialog Badri N. Patro Anupriy Vinay P. Namboodiri BDL 30 13 0 11 Sep 2019
A Better Way to Attend: Attention with Trees for Video Question Answering Hongyang Xue Wenqing Chu Zhou Zhao Deng Cai 25 33 0 05 Sep 2019
PlotQA: Reasoning over Scientific Plots Nitesh Methani Pritha Ganguly Mitesh M. Khapra Pratyush Kumar 41 9 0 03 Sep 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 24 823 0 19 Aug 2019
SPA-GAN: Spatial Attention GAN for Image-to-Image Translation H. Emami Majid Moradi Aliabadi Ming Dong R. Chinnam GAN 23 168 0 19 Aug 2019
What is needed for simple spatial language capabilities in VQA? A. Kuhnle Ann A. Copestake CoGe 18 1 0 17 Aug 2019
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps Badri N. Patro Mayank Lunayach Shivansh Patel Vinay P. Namboodiri FAtt UQCV 27 76 0 17 Aug 2019
VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering Cătălina Cangea Eugene Belilovsky Pietro Lio Aaron Courville 16 16 0 14 Aug 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 27 38 0 12 Aug 2019