v1v2v3 (latest)

Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

2 December 2016

Devi Parikh

Papers citing "Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering"

50 / 2,037 papers shown

Title
NAAQA: A Neural Architecture for Acoustic Question Answering Jerome Abdelnour Jean Rouat G. Salvi 92 4 0 11 Jun 2021
Supervising the Transfer of Reasoning Patterns in VQA Corentin Kervadec Christian Wolf G. Antipov M. Baccouche Madiha Nadri Wolf 79 11 0 10 Jun 2021
Bayesian Attention Belief Networks Shujian Zhang Xinjie Fan Bo Chen Mingyuan Zhou BDL 114 32 0 09 Jun 2021
Check It Again: Progressive Visual Question Answering via Visual Entailment Q. Si Zheng Lin Mingyu Zheng Peng Fu Weiping Wang 79 48 0 08 Jun 2021
What Makes Multi-modal Learning Better than Single (Provably) Yu Huang Chenzhuang Du Zihui Xue Xuanyao Chen Hang Zhao Longbo Huang 104 270 0 08 Jun 2021
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions Daniel Rosenberg Itai Gat Amir Feder Roi Reichart AAML 91 16 0 08 Jun 2021
Conversational Fashion Image Retrieval via Multiturn Natural Language Feedback Yifei Yuan W. Lam 49 43 0 08 Jun 2021
Human-Adversarial Visual Question Answering Sasha Sheng Amanpreet Singh Vedanuj Goswami Jose Alberto Lopez Magana Wojciech Galuba Devi Parikh Douwe Kiela OOD EgoV AAML 58 63 0 04 Jun 2021
Visual Question Rewriting for Increasing Response Rate Jiayi Wei Xilian Li Yi Zhang Xin Eric Wang 56 3 0 04 Jun 2021
Finding and Fixing Spurious Patterns with Explanations Gregory Plumb Marco Tulio Ribeiro Ameet Talwalkar 129 42 0 03 Jun 2021
Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models Linjie Li Jie Lei Zhe Gan Jingjing Liu AAML VLM 116 75 0 01 Jun 2021
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning Jiaqi Chen Jianheng Tang Jinghui Qin Xiaodan Liang Lingbo Liu Eric Xing Liang Lin AIMat 121 188 0 30 May 2021
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering Zujie Liang Haifeng Hu Jiaying Zhu 99 38 0 29 May 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 138 142 0 17 May 2021
Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention Nihar Bendre K. Desai Peyman Najafirad CoGe 82 6 0 15 May 2021
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues Qingxiu Dong Ziwei Qin Heming Xia Tian Feng Shoujie Tong ... Weidong Zhan Sujian Li Zhongyu Wei Tianyu Liu Zuifang Sui LRM 64 11 0 15 May 2021
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules Aisha Urooj Khan Hilde Kuehne Kevin Duarte Chuang Gan N. Lobo M. Shah 73 36 0 11 May 2021
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks Maxime Kayser Oana-Maria Camburu Leonard Salewski Cornelius Emde Virginie Do Zeynep Akata Thomas Lukasiewicz VLM 114 101 0 08 May 2021
AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss Yangyang Guo Liqiang Nie Zhiyong Cheng Feng Ji Ji Zhang A. Bimbo 76 35 0 05 May 2021
A survey on VQA_Datasets and Approaches Yeyun Zou Qiyu Xie 81 18 0 02 May 2021
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads Chenyu Gao Qi Zhu Peng Wang Qi Wu 28 2 0 30 Apr 2021
A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations Varun Nagaraj Rao Xingjian Zhen K. Hovsepian Mingwei Shen 97 19 0 29 Apr 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 324 898 0 26 Apr 2021
InfographicVQA Minesh Mathew Viraj Bagal Rubèn Pérez Tito Dimosthenis Karatzas Ernest Valveny C. V. Jawahar 122 242 0 26 Apr 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 154 56 0 23 Apr 2021
Weakly-supervised Multi-task Learning for Multimodal Affect Recognition Wenliang Dai Samuel Cahyawijaya Yejin Bang Pascale Fung CVBM 94 11 0 23 Apr 2021
Detector-Free Weakly Supervised Grounding by Separation Assaf Arbelle Sivan Doveh Amit Alfassy J. Shtok Guy Lev ... Kate Saenko S. Ullman Raja Giryes Rogerio Feris Leonid Karlinsky 92 24 0 20 Apr 2021
Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language Models Tejas Srinivasan Yonatan Bisk VLM 83 56 0 18 Apr 2021
VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks Hung Le Nancy F. Chen Guosheng Lin MLLM 83 19 0 16 Apr 2021
Neuro-Symbolic VQA: A review from the perspective of AGI desiderata Ian Berlot-Attwell 32 3 0 13 Apr 2021
MultiModalQA: Complex Question Answering over Text, Tables and Images Alon Talmor Ori Yoran Amnon Catav Dan Lahav Yizhong Wang Akari Asai Gabriel Ilharco Hannaneh Hajishirzi Jonathan Berant LMTD 107 163 0 13 Apr 2021
Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation Jae-Won Cho Dong-Jin Kim Jinsoo Choi Yunjae Jung In So Kweon VLM 57 17 0 13 Apr 2021
Video Question Answering with Phrases via Semantic Roles Arka Sadhu Kan Chen Ram Nevatia 51 16 0 08 Apr 2021
How Transferable are Reasoning Patterns in VQA? Corentin Kervadec Theo Jaunet G. Antipov M. Baccouche Romain Vuillemot Christian Wolf LRM 63 28 0 08 Apr 2021
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering Corentin Dancette Rémi Cadène Damien Teney Matthieu Cord CML 96 78 0 07 Apr 2021
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu VLM ViT 164 274 0 07 Apr 2021
Multimodal Continuous Visual Attention Mechanisms António Farinhas André F. T. Martins P. Aguiar 69 7 0 07 Apr 2021
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network Minchul Shin Yoonjae Cho ByungSoo Ko Geonmo Gu 84 44 0 07 Apr 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 129 99 0 05 Apr 2021
VisQA: X-raying Vision and Language Reasoning in Transformers Theo Jaunet Corentin Kervadec Romain Vuillemot G. Antipov M. Baccouche Christian Wolf 68 26 0 02 Apr 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 105 53 0 01 Apr 2021
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training Mingyang Zhou Luowei Zhou Shuohang Wang Yu Cheng Linjie Li Zhou Yu Jingjing Liu MLLM VLM 99 92 0 01 Apr 2021
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning Luowei Zhou Jingjing Liu Yu Cheng Zhe Gan Lei Zhang 75 7 0 01 Apr 2021
Zero-Shot Language Transfer vs Iterative Back Translation for Unsupervised Machine Translation Aviral Joshi Chengzhi Huang H. Singh 54 2 0 31 Mar 2021
Kaleido-BERT: Vision-Language Pre-training on Fashion Domain Mingchen Zhuge D. Gao Deng-Ping Fan Linbo Jin Ben Chen Hao Zhou Minghui Qiu Ling Shao VLM 103 121 0 30 Mar 2021
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning Madeleine Grunde-McLaughlin Ranjay Krishna Maneesh Agrawala CoGe 87 119 0 30 Mar 2021
Domain-robust VQA with diverse datasets and methods but no target labels Ruotong Wang Tristan D. Maidment Ahmad Diab Adriana Kovashka R. Hwa OOD 131 23 0 29 Mar 2021
Generating and Evaluating Explanations of Attended and Error-Inducing Input Regions for VQA Models Arijit Ray Michael Cogswell Xiaoyu Lin Kamran Alipour Ajay Divakaran Yi Yao Giedrius Burachas FAtt 53 4 0 26 Mar 2021
Local Interpretations for Explainable Natural Language Processing: A Survey Siwen Luo Hamish Ivison S. Han Josiah Poon MILM 120 52 0 20 Mar 2021
Let Your Heart Speak in its Mother Tongue: Multilingual Captioning of Cardiac Signals Dani Kiyasseh T. Zhu David Clifton 124 0 0 19 Mar 2021