Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

6 June 2016

Papers citing "Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding"

50 / 225 papers shown

Title
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Peng Gao Moitreya Chatterjee Chiori Hori Jonathan Le Roux Yongfeng Zhang Hongsheng Li A. Cherian 27 11 0 08 Jul 2020
The Impact of Explanations on AI Competency Prediction in VQA Kamran Alipour Arijit Ray Xiaoyu Lin J. Schulze Yi Yao Giedrius Burachas 24 9 0 02 Jul 2020
Physics-aware Spatiotemporal Modules with Auxiliary Tasks for Meta-Learning Sungyong Seo Chuizheng Meng Sirisha Rambhatla Yan Liu AI4CE 16 11 0 15 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 35 488 0 11 Jun 2020
Counterfactual VQA: A Cause-Effect Look at Language Bias Yulei Niu Kaihua Tang Hanwang Zhang Zhiwu Lu Xiansheng Hua Ji-Rong Wen CML 41 394 0 08 Jun 2020
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA Hyounghun Kim Zineng Tang Joey Tianyi Zhou 22 31 0 13 May 2020
MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis Devamanyu Hazarika Roger Zimmermann Soujanya Poria 21 669 0 07 May 2020
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen 39 23 0 24 Apr 2020
Multimodal Categorization of Crisis Events in Social Media Mahdi Abavisani Liwei Wu Shengli Hu Joel R. Tetreault A. Jaimes 29 87 0 10 Apr 2020
Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual Grounding Thierry Deruyttere Guillem Collell Marie-Francine Moens LRM 11 8 0 19 Mar 2020
Deep Multi-Modal Sets A. Reiter Menglin Jia Pu Yang Ser-Nam Lim BDL 25 4 0 03 Mar 2020
A Question-Centric Model for Visual Question Answering in Medical Imaging Minh H. Vu Tommy Löfstedt T. Nyholm Raphael Sznitman MedIm 14 59 0 02 Mar 2020
A Study on Multimodal and Interactive Explanations for Visual Question Answering Kamran Alipour J. Schulze Yi Yao Avi Ziskind Giedrius Burachas 32 27 0 01 Mar 2020
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 197 206 0 23 Jan 2020
Robust Explanations for Visual Question Answering Badri N. Patro Shivansh Pate Vinay P. Namboodiri OOD AAML 25 20 0 23 Jan 2020
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models M. Farazi Salman H. Khan Nick Barnes 23 17 0 20 Jan 2020
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing Vedika Agarwal Rakshith Shetty Mario Fritz CML AAML 32 155 0 16 Dec 2019
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 24 60 0 07 Dec 2019
Multimodal Machine Translation through Visuals and Speech U. Sulubacak Ozan Caglayan Stig-Arne Gronroos Aku Rouhe Desmond Elliott Lucia Specia Jörg Tiedemann 49 72 0 28 Nov 2019
Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA Badri N. Patro Anupriy Vinay P. Namboodiri AAML FAtt 40 26 0 19 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain A. Schwing LRM ReLM 34 9 0 31 Oct 2019
Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI Alejandro Barredo Arrieta Natalia Díaz Rodríguez Javier Del Ser Adrien Bennetot Siham Tabik ... S. Gil-Lopez Daniel Molina Richard Benjamins Raja Chatila Francisco Herrera XAI 37 6,110 0 22 Oct 2019
Multi-modal Deep Analysis for Multimedia Wenwu Zhu Xin Wang Hongzhi Li 29 38 0 11 Oct 2019
3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera Iro Armeni Zhi-Yang He JunYoung Gwak Amir Zamir Martin Fischer Jitendra Malik Silvio Savarese 3DV 3DPC 39 336 0 06 Oct 2019
REMIND Your Neural Network to Prevent Catastrophic Forgetting Tyler L. Hayes Kushal Kafle Robik Shrestha Manoj Acharya Christopher Kanan CLL 31 295 0 06 Oct 2019
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval Reuben Tan Huijuan Xu Kate Saenko Bryan A. Plummer 28 67 0 27 Sep 2019
Compact Trilinear Interaction for Visual Question Answering Tuong Khanh Long Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang-Dieu Tran 36 59 0 26 Sep 2019
Overcoming Data Limitation in Medical Visual Question Answering Binh Duc Nguyen Thanh-Toan Do Binh X. Nguyen Tuong Khanh Long Do Erman Tjiputra Quang-Dieu Tran MedIm 15 145 0 26 Sep 2019
Talk2Car: Taking Control of Your Self-Driving Car Thierry Deruyttere Simon Vandenhende Dusan Grujicic Luc Van Gool Marie-Francine Moens LM&Ro 25 124 0 24 Sep 2019
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao VLM 25 299 0 12 Sep 2019
Picture What you Read I. Gallo Shah Nawaz Alessandro Calefati Riccardo La Grassa Nicola Landro DiffM 23 0 0 09 Sep 2019
Zero-Shot Grounding of Objects from Natural Language Queries Arka Sadhu Kan Chen Ram Nevatia ObjD 30 156 0 20 Aug 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 24 823 0 19 Aug 2019
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps Badri N. Patro Mayank Lunayach Shivansh Patel Vinay P. Namboodiri FAtt UQCV 27 76 0 17 Aug 2019
VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering Cătălina Cangea Eugene Belilovsky Pietro Lió Aaron Courville 16 16 0 14 Aug 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 27 38 0 12 Aug 2019
Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking Tan Wang Xing Xu Yang Yang Alan Hanjalic Heng Tao Shen Jingkuan Song 22 145 0 12 Aug 2019
Multi-modality Latent Interaction Network for Visual Question Answering Peng Gao Haoxuan You Zhanpeng Zhang Xiaogang Wang Hongsheng Li 22 82 0 10 Aug 2019
Question-Agnostic Attention for Visual Question Answering M. Farazi Salman H Khan Nick Barnes 13 10 0 09 Aug 2019
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering Cheng Zhang Wei-Lun Chao D. Xuan 23 50 0 28 Jul 2019
Blind Image Quality Assessment Using A Deep Bilinear Convolutional Neural Network Weixia Zhang Kede Ma Jia Yan Dexiang Deng Zhou Wang 33 648 0 05 Jul 2019
Learning Representations from Imperfect Time Series Data via Tensor Rank Regularization Paul Pu Liang Zhun Liu Yao-Hung Hubert Tsai Qibin Zhao Ruslan Salakhutdinov Louis-Philippe Morency AI4TS 30 81 0 01 Jul 2019
Deep Modular Co-Attention Networks for Visual Question Answering Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Q. Tian 36 796 0 25 Jun 2019
Adversarial Multimodal Network for Movie Question Answering Zhaoquan Yuan Siyuan Sun Lixin Duan Xiao Wu Changsheng Xu 24 3 0 24 Jun 2019
Frontal Low-rank Random Tensors for Fine-grained Action Segmentation Yan Zhang Krikamol Muandet Qianli Ma Heiko Neumann Siyu Tang 28 3 0 03 Jun 2019
Contextual Translation Embedding for Visual Relationship Detection and Scene Graph Generation Zih-Siou Hung Arun Mallya Svetlana Lazebnik ViT 29 14 0 28 May 2019
Self-Critical Reasoning for Robust Visual Question Answering Jialin Wu Raymond J. Mooney OOD NAI 32 159 0 24 May 2019
Deep Local Trajectory Replanning and Control for Robot Navigation Ashwini Pokle Roberto Martín-Martín P. Goebel Vincent Chow H. Ewald ... Zhenkai Wang Amir Sadeghian Dorsa Sadigh Silvio Savarese Marynel Vázquez 19 62 0 13 May 2019
Language-Conditioned Graph Networks for Relational Reasoning Ronghang Hu Anna Rohrbach Trevor Darrell Kate Saenko 31 171 0 10 May 2019
EmbraceNet: A robust deep learning architecture for multimodal classification Jun-Ho Choi Jong-Seok Lee 21 123 0 19 Apr 2019