v1v2v3v4v5v6v7 (latest)

VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 2,957 papers shown

Title
Drug discovery with explainable artificial intelligence José Jiménez-Luna F. Grisoni G. Schneider 195 645 0 01 Jul 2020
Modality-Agnostic Attention Fusion for visual search with text feedback Eric Dodds Jack Culpepper Simão Herdade Yang Zhang K. Boakye EgoV 100 74 0 30 Jun 2020
Deep Feature Space: A Geometrical Perspective Ioannis Kansizoglou Loukas Bampis Antonios Gasteratos 88 40 0 30 Jun 2020
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang 130 382 0 30 Jun 2020
$Improving VQA and its Explanations \\ by Comparing Competing Explanations$ Improving VQA and its Explanations \\ by Comparing Competing Explanations Jialin Wu Liyan Chen Raymond J. Mooney FAtt AAML 88 18 0 28 Jun 2020
Video-Grounded Dialogues with Pretrained Generation Language Models Hung Le Guosheng Lin 82 28 0 27 Jun 2020
Graph Optimal Transport for Cross-Domain Alignment Liqun Chen Zhe Gan Yu Cheng Linjie Li Lawrence Carin Jingjing Liu OT 117 152 0 26 Jun 2020
A causal view of compositional zero-shot recognition Yuval Atzmon Felix Kreuk Uri Shalit Gal Chechik OCL BDL CML 115 125 0 25 Jun 2020
Recurrent Relational Memory Network for Unsupervised Image Captioning Dan Guo Yang Wang Peipei Song Meng Wang GAN 83 40 0 24 Jun 2020
Open-Domain Conversational Agents: Current Progress, Open Problems, and Future Directions Stephen Roller Y-Lan Boureau Jason Weston Antoine Bordes Emily Dinan ... Kurt Shuster Eric Michael Smith Arthur Szlam Jack Urbanek Mary Williamson LLMAG AI4CE 132 52 0 22 Jun 2020
A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets Chengchang Zeng Shaobo Li Qin Li Jie Hu Jianjun Hu 114 101 0 21 Jun 2020
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" Saeed Amizadeh Hamid Palangi Oleksandr Polozov Yichen Huang K. Koishida NAI LRM 121 60 0 20 Jun 2020
Overcoming Statistical Shortcuts for Open-ended Visual Counting Corentin Dancette Rémi Cadène Xinlei Chen Matthieu Cord 36 3 0 17 Jun 2020
A generalizable saliency map-based interpretation of model outcome Shailja Thakur S. Fischmeister AAML FAtt MILM 37 2 0 16 Jun 2020
A Study of Compositional Generalization in Neural Models Tim Klinger D. Adjodah Vincent Marois Joshua Joseph Matthew D Riemer Alex Pentland Murray Campbell CoGe NAI 200 13 0 16 Jun 2020
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering Zihao Zhu Jiahao Yu Yujing Wang Yajing Sun Yue Hu Qi Wu 107 129 0 16 Jun 2020
Extrapolatable Relational Reasoning With Comparators in Low-Dimensional Manifolds Duo Wang M. Jamnik Pietro Lio OOD 31 1 0 15 Jun 2020
ORD: Object Relationship Discovery for Visual Dialogue Generation Ziwei Wang Zi Huang Yadan Luo Huimin Lu 51 4 0 15 Jun 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 173 437 0 11 Jun 2020
Exploring Weaknesses of VQA Models through Attribution Driven Insights Shaunak Halbe 42 2 0 11 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 133 501 0 11 Jun 2020
Estimating semantic structure for the VQA answer space Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 47 4 0 10 Jun 2020
Interpretable Multimodal Learning for Intelligent Regulation in Online Payment Systems Shuoyao Wang Diwei Zhu 17 4 0 10 Jun 2020
Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To? Corentin Kervadec G. Antipov M. Baccouche Christian Wolf OOD 90 90 0 09 Jun 2020
Counterfactual VQA: A Cause-Effect Look at Language Bias Yulei Niu Kaihua Tang Hanwang Zhang Zhiwu Lu Xiansheng Hua Ji-Rong Wen CML 147 403 0 08 Jun 2020
SIDU: Similarity Difference and Uniqueness Method for Explainable AI Satya M. Muddamsetty M. N. Jahromi T. Moeslund 39 11 0 04 Jun 2020
CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language Learning Alessandro Suglia Ioannis Konstas Andrea Vanzo E. Bastianelli Desmond Elliott Stella Frank Oliver Lemon 62 16 0 03 Jun 2020
Situated and Interactive Multimodal Conversations Seungwhan Moon Satwik Kottur Paul A. Crook Ankita De Shivani Poddar ... Daniel Difranco Ahmad Beirami Eunjoon Cho R. Subba A. Geramifard 95 72 0 02 Jun 2020
Probing Emergent Semantics in Predictive Agents via Question Answering Abhishek Das Federico Carnevale Hamza Merzic Laura Rimell R. Schneider ... Alden Hung Arun Ahuja S. Clark Greg Wayne Felix Hill 81 18 0 01 Jun 2020
Multimodal grid features and cell pointers for Scene Text Visual Question Answering Lluís Gómez Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Marçal Rusiñol Ernest Valveny Dimosthenis Karatzas 58 21 0 01 Jun 2020
Structured Multimodal Attentions for TextVQA Chenyu Gao Qi Zhu Peng Wang Hui Li Yuliang Liu Anton Van Den Hengel Qi Wu 99 60 0 01 Jun 2020
FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval D. Gao Linbo Jin Ben Chen Minghui Qiu Peng Li Yi Wei Yitao Hu Haozhe Jasper Wang OOD 84 134 0 20 May 2020
On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law Damien Teney Kushal Kafle Robik Shrestha Ehsan Abbasnejad Christopher Kanan Anton Van Den Hengel OODD OOD 106 147 0 19 May 2020
Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation Boris Knyazev H. D. Vries Cătălina Cangea Graham W. Taylor Aaron Courville Eugene Belilovsky 74 56 0 17 May 2020
Visual Relationship Detection using Scene Graphs: A Survey Aniket Agarwal Ayush Mangal Vipul GNN 70 21 0 16 May 2020
C3VQG: Category Consistent Cyclic Visual Question Generation Shagun Uppal Anish Madan Sarthak Bhagat Yi Yu R. Shah 57 19 0 15 May 2020
Adaptive Transformers for Learning Multimodal Representations Prajjwal Bhargava 21 4 0 15 May 2020
ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language Zhe Wang Zhiyuan Fang Jun Wang Yezhou Yang 110 159 0 15 May 2020
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models Jize Cao Zhe Gan Yu Cheng Licheng Yu Yen-Chun Chen Jingjing Liu VLM 123 130 0 15 May 2020
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA Hyounghun Kim Zineng Tang Joey Tianyi Zhou 80 31 0 13 May 2020
Cross-Modality Relevance for Reasoning on Language and Vision Chen Zheng Quan Guo Parisa Kordjamshidi LRM 88 36 0 12 May 2020
Scones: Towards Conversational Authoring of Sketches Forrest Huang E. Schoop David R Ha John F. Canny 128 25 0 12 May 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 111 613 0 10 May 2020
History for Visual Dialog: Do we really need it? Shubham Agarwal Trung Bui Joon-Young Lee Ioannis Konstas Verena Rieser VLM 38 71 0 08 May 2020
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions Arjun Reddy Akula Spandana Gella Yaser Al-Onaizan Song-Chun Zhu Siva Reddy ObjD 69 52 0 04 May 2020
What-if I ask you to explain: Explaining the effects of perturbations in procedural text Dheeraj Rajagopal Niket Tandon Bhavana Dalvi Peter Clarke Eduard H. Hovy 54 14 0 04 May 2020
Visual Question Answering with Prior Class Semantics Violetta Shevchenko Damien Teney A. Dick Anton Van Den Hengel BDL 55 7 0 04 May 2020
ESPRIT: Explaining Solutions to Physical Reasoning Tasks Nazneen Rajani Rui Zhang Y. Tan Stephan Zheng Jeremy C. Weiss Aadit Vyas Abhijit Gupta Caiming Xiong R. Socher Dragomir R. Radev ReLM LRM 73 21 0 02 May 2020
Obtaining Faithful Interpretations from Compositional Neural Networks Sanjay Subramanian Ben Bogin Nitish Gupta Tomer Wolfson Sameer Singh Jonathan Berant Matt Gardner 75 42 0 02 May 2020
Robust and Interpretable Grounding of Spatial References with Relation Networks Tsung-Yen Yang Andrew S. Lan Karthik Narasimham 93 12 0 02 May 2020