Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

6 June 2016

Papers citing "Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding"

50 / 225 papers shown

Title
Factor Graph Attention Idan Schwartz Seunghak Yu Tamir Hazan A. Schwing 21 110 0 11 Apr 2019
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz A. Schwing Tamir Hazan 24 69 0 11 Apr 2019
Convolutional Self-Attention Networks Baosong Yang Longyue Wang Derek F. Wong Lidia S. Chao Zhaopeng Tu 24 124 0 05 Apr 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 17 82 0 01 Mar 2019
MUREL: Multimodal Relational Reasoning for Visual Question Answering Rémi Cadène H. Ben-younes Matthieu Cord Nicolas Thome LRM 19 271 0 25 Feb 2019
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog Zhe Gan Yu Cheng Ahmed El Kholy Linjie Li Jingjing Liu Jianfeng Gao 11 104 0 01 Feb 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 51 322 0 20 Jan 2019
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering Zhuoqian Yang Zengchang Qin Jing Yu Yue Hu GNN 25 16 0 23 Dec 2018
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering Peng Gao Zhengkai Jiang Haoxuan You Pan Lu Steven C. H. Hoi Xiaogang Wang Hongsheng Li AIMat 21 362 0 13 Dec 2018
Multi-task Learning of Hierarchical Vision-Language Representation Duy-Kien Nguyen Takayuki Okatani 23 51 0 03 Dec 2018
Explicit Bias Discovery in Visual Question Answering Models Varun Manjunatha Nirat Saini L. Davis CML FAtt 19 92 0 19 Nov 2018
Textually Enriched Neural Module Networks for Visual Question Answering Khyathi Raghavi Chandu Mary Arpita Pyreddy Matthieu Felix N. Joshi 24 6 0 23 Sep 2018
Faithful Multimodal Explanation for Visual Question Answering Jialin Wu Raymond J. Mooney 20 90 0 08 Sep 2018
Interpretable Visual Question Answering by Reasoning on Dependency Trees Qingxing Cao Bailin Li Xiaodan Liang Liang Lin 33 55 0 06 Sep 2018
Chest X-rays Classification: A Multi-Label and Fine-Grained Problem Z. Ge Dwarikanath Mahapatra S. Sedai R. Garnavi R. Chakravorty 12 50 0 19 Jul 2018
Learning Conditioned Graph Structures for Interpretable Visual Question Answering Will Norcliffe-Brown Efstathios Vafeias Sarah Parisot GNN 21 236 0 19 Jun 2018
Learning to Evaluate Image Captioning Huayu Chen Guandao Yang Andreas Veit Xun Huang Serge J. Belongie 35 147 0 17 Jun 2018
Learning Visual Knowledge Memory Networks for Visual Question Answering Zhou Su Chen Zhu Yinpeng Dong Dongqi Cai Yurong Chen Jianguo Li 34 62 0 13 Jun 2018
Explaining Explanations: An Overview of Interpretability of Machine Learning Leilani H. Gilpin David Bau Ben Z. Yuan Ayesha Bajwa Michael A. Specter Lalana Kagal XAI 40 1,840 0 31 May 2018
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Pan Lu Lei Ji Wei Zhang Nan Duan M. Zhou Jianyong Wang CoGe 19 79 0 24 May 2018
Joint Image Captioning and Question Answering Jialin Wu Zeyuan Hu Raymond J. Mooney 24 12 0 22 May 2018
Did the Model Understand the Question? Pramod Kaushik Mudrakarta Ankur Taly Mukund Sundararajan Kedar Dhamdhere ELM OOD FAtt 27 196 0 14 May 2018
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding Zhou Yu Jun-chen Yu Chenchao Xiang Zhou Zhao Q. Tian Dacheng Tao ObjD 18 138 0 09 May 2018
Transformer for Emotion Recognition Jean-Benoit Delbrouck 12 1 0 03 May 2018
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering Duy-Kien Nguyen Takayuki Okatani 22 279 0 03 Apr 2018
Unsupervised Textual Grounding: Linking Words to Image Concepts Raymond A. Yeh Minh Do A. Schwing 22 40 0 29 Mar 2018
Motion-Appearance Co-Memory Networks for Video Question Answering J. Gao Runzhou Ge Kan Chen Ram Nevatia 41 240 0 29 Mar 2018
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning David Mascharka Philip Tran Ryan Soklaski Arjun Majumdar 33 207 0 14 Mar 2018
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence Dong Huk Park Lisa Anne Hendricks Zeynep Akata Anna Rohrbach Bernt Schiele Trevor Darrell Marcus Rohrbach 37 418 0 15 Feb 2018
Efficient Large-Scale Multi-Modal Classification D. Kiela Edouard Grave Armand Joulin Tomáš Mikolov 32 141 0 06 Feb 2018
Object-based reasoning in VQA Mikyas T. Desta Larry Chen Tomasz Kornuta 27 33 0 29 Jan 2018
Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions Qing Li Jianlong Fu D. Yu Tao Mei Jiebo Luo FAtt XAI CoGe 51 60 0 27 Jan 2018
DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle Brian L. Price Scott D. Cohen Christopher Kanan AIMat 33 363 0 24 Jan 2018
Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks Guohao Li Hang Su Wenwu Zhu 32 46 0 03 Dec 2017
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering Aishwarya Agrawal Dhruv Batra Devi Parikh Aniruddha Kembhavi OOD 55 581 0 01 Dec 2017
Object Referring in Visual Scene with Spoken Language A. Vasudevan Dengxin Dai Luc Van Gool 37 18 0 10 Nov 2017
A Read-Write Memory Network for Movie Story Understanding Seil Na Sangho Lee Jisung Kim Gunhee Kim AIMat 19 98 0 27 Sep 2017
Survey of Recent Advances in Visual Question Answering Supriya Pandhre Shagun Sodhani 8 14 0 24 Sep 2017
Visual Question Generation as Dual Task of Visual Question Answering Yikang Li Nan Duan Bolei Zhou Xiao Chu Wanli Ouyang Xiaogang Wang 34 165 0 21 Sep 2017
Link the head to the "beak": Zero Shot Learning from Noisy Text Description at Part Precision Mohamed Elhoseiny Yizhe Zhu Han Zhang Ahmed Elgammal VLM 35 132 0 04 Sep 2017
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation Chuang Gan Yandong Li Haoxiang Li Chen Sun Boqing Gong 27 126 0 15 Aug 2017
Fluency-Guided Cross-Lingual Image Captioning Weiyu Lan Xirong Li Jianfeng Dong 19 93 0 15 Aug 2017
Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge Damien Teney Peter Anderson Xiaodong He Anton Van Den Hengel 50 380 0 09 Aug 2017
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering Zhou Yu Jun-chen Yu Jianping Fan Dacheng Tao 41 663 0 04 Aug 2017
Learned in Translation: Contextualized Word Vectors Bryan McCann James Bradbury Caiming Xiong R. Socher 41 907 0 01 Aug 2017
DeepStory: Video Story QA by Deep Embedded Memory Networks Kyung-Min Kim Min-Oh Heo Seongho Choi Byoung-Tak Zhang 24 174 0 04 Jul 2017
Binary Patterns Encoded Convolutional Neural Networks for Texture Recognition and Remote Sensing Scene Classification Rao Muhammad Anwer Fahad Shahbaz Khan Joost van de Weijer M. Molinier Jorma T. Laaksonen 33 242 0 05 Jun 2017
Multimodal Machine Learning: A Survey and Taxonomy T. Baltrušaitis Chaitanya Ahuja Louis-Philippe Morency 15 2,859 0 26 May 2017
MUTAN: Multimodal Tucker Fusion for Visual Question Answering H. Ben-younes Rémi Cadène Matthieu Cord Nicolas Thome 67 578 0 18 May 2017
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets Wei-Lun Chao Hexiang Hu Fei Sha 22 37 0 24 Apr 2017