A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input

1 October 2014

Mario Fritz

Papers citing "A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input"

50 / 330 papers shown

Title
Spatial Attention as an Interface for Image Captioning Models P. Sadler 28 0 0 29 Sep 2020
A Dataset and Baselines for Visual Question Answering on Art Noa Garcia Chentao Ye Zihua Liu Qingtao Hu Mayu Otani Chenhui Chu Yuta Nakashima Teruko Mitamura CoGe 16 52 0 28 Aug 2020
Weakly supervised cross-domain alignment with optimal transport Siyang Yuan Ke Bai Liqun Chen Yizhe Zhang Chenyang Tao Chunyuan Li Guoyin Wang Ricardo Henao Lawrence Carin OT 32 7 0 14 Aug 2020
Visual Question Answering as a Multi-Task Problem A. E. Pollard J. Shapiro 15 7 0 03 Jul 2020
A Competence-aware Curriculum for Visual Concepts Learning via Question Answering Qing Li Siyuan Huang Yining Hong Song-Chun Zhu 28 29 0 03 Jul 2020
Graph Optimal Transport for Cross-Domain Alignment Liqun Chen Zhe Gan Yu Cheng Linjie Li Lawrence Carin Jingjing Liu OT 25 148 0 26 Jun 2020
Self-Segregating and Coordinated-Segregating Transformer for Focused Deep Multi-Modular Network for Visual Question Answering C. Sur 10 9 0 25 Jun 2020
Exploring Weaknesses of VQA Models through Attribution Driven Insights Shaunak Halbe 23 2 0 11 Jun 2020
Estimating semantic structure for the VQA answer space Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 26 4 0 10 Jun 2020
Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To? Corentin Kervadec G. Antipov M. Baccouche Christian Wolf OOD 21 88 0 09 Jun 2020
Probing Emergent Semantics in Predictive Agents via Question Answering Abhishek Das Federico Carnevale Hamza Merzic Laura Rimell R. Schneider ... Alden Hung Arun Ahuja S. Clark Greg Wayne Felix Hill 40 18 0 01 Jun 2020
C3VQG: Category Consistent Cyclic Visual Question Generation Shagun Uppal Anish Madan Sarthak Bhagat Yi Yu R. Shah 18 20 0 15 May 2020
A Novel Attention-based Aggregation Function to Combine Vision and Language Matteo Stefanini Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 24 9 0 27 Apr 2020
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text Difei Gao Ke Li Ruiping Wang Shiguang Shan Xilin Chen 16 111 0 31 Mar 2020
PathVQA: 30000+ Questions for Medical Visual Question Answering Xuehai He Yichen Zhang Luntian Mou Eric Xing P. Xie LM&MA 25 215 0 07 Mar 2020
What BERT Sees: Cross-Modal Transfer for Visual Question Generation Thomas Scialom Patrick Bordes Paul-Alexis Dray Jacopo Staiano Patrick Gallinari 31 6 0 25 Feb 2020
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering Xinyu Wang Yuliang Liu Chunhua Shen Chun Chet Ng Canjie Luo Lianwen Jin C. Chan Anton Van Den Hengel Liangwei Wang 31 91 0 24 Feb 2020
VQA-LOL: Visual Question Answering under the Lens of Logic Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang CoGe 28 73 0 19 Feb 2020
Sparse and Structured Visual Attention Pedro Henrique Martins S. Becker Zita Marinho Michael Arens 35 8 0 13 Feb 2020
Augmenting Visual Question Answering with Semantic Frame Information in a Multitask Learning Approach Mehrdad Alizadeh Barbara Di Eugenio 16 3 0 31 Jan 2020
Uncertainty based Class Activation Maps for Visual Question Answering Badri N. Patro Mayank Lunayach Vinay P. Namboodiri FAtt UQCV 11 1 0 23 Jan 2020
Deep Bayesian Network for Visual Question Generation Badri N. Patro V. Kurmi Sandeep Kumar Vinay P. Namboodiri BDL 17 19 0 23 Jan 2020
Robust Explanations for Visual Question Answering Badri N. Patro Shivansh Pate Vinay P. Namboodiri OOD AAML 25 20 0 23 Jan 2020
Visual Question Answering on 360° Images Shih-Han Chou Wei-Lun Chao Wei-Sheng Lai Min Sun Ming-Hsuan Yang 24 21 0 10 Jan 2020
Deep Exemplar Networks for VQA and VQG Badri N. Patro Vinay P. Namboodiri 27 4 0 19 Dec 2019
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing Vedika Agarwal Rakshith Shetty Mario Fritz CML AAML 32 155 0 16 Dec 2019
Deep Bayesian Active Learning for Multiple Correct Outputs Khaled Jedoui Ranjay Krishna Michael S. Bernstein Li Fei-Fei BDL OOD UQCV 26 14 0 02 Dec 2019
Assessing the Robustness of Visual Question Answering Models Jia-Hong Huang Modar Alfadly Guohao Li M. Worring AAML OOD 28 23 0 30 Nov 2019
Transfer Learning in Visual and Relational Reasoning T. S. Jayram Vincent Marois Tomasz Kornuta V. Albouy Emre Sevgen A. Ozcan NAI OOD LRM 19 2 0 27 Nov 2019
Temporal Reasoning via Audio Question Answering Haytham M. Fayek Justin Johnson 30 51 0 21 Nov 2019
Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA Badri N. Patro Anupriy Vinay P. Namboodiri AAML FAtt 48 26 0 19 Nov 2019
Exploiting Human Social Cognition for the Detection of Fake and Fraudulent Faces via Memory Networks Tharindu Fernando Clinton Fookes Simon Denman Sridha Sridharan CVBM 33 16 0 17 Nov 2019
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications Chao Zhang Zichao Yang Xiaodong He Li Deng HAI AI4TS 35 326 0 10 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain Alex Schwing LRM ReLM 37 9 0 31 Oct 2019
KnowIT VQA: Answering Knowledge-Based Questions about Videos Noa Garcia Mayu Otani Chenhui Chu Yuta Nakashima 30 77 0 23 Oct 2019
PyTorchPipe: a framework for rapid prototyping of pipelines combining language and vision Tomasz Kornuta 14 2 0 18 Oct 2019
Dynamic Attention Networks for Task Oriented Grounding S. Dasgupta Badri N. Patro Vinay P. Namboodiri 33 1 0 14 Oct 2019
Granular Multimodal Attention Networks for Visual Dialog Badri N. Patro Shivansh Patel Vinay P. Namboodiri 33 1 0 13 Oct 2019
REMIND Your Neural Network to Prevent Catastrophic Forgetting Tyler L. Hayes Kushal Kafle Robik Shrestha Manoj Acharya Christopher Kanan CLL 31 295 0 06 Oct 2019
Probabilistic framework for solving Visual Dialog Badri N. Patro Anupriy Vinay P. Namboodiri BDL 30 13 0 11 Sep 2019
PlotQA: Reasoning over Scientific Plots Nitesh Methani Pritha Ganguly Mitesh M. Khapra Pratyush Kumar 49 7 0 03 Sep 2019
Visual Question Answering using Deep Learning: A Survey and Performance Analysis Yash Srivastava Vaishnav Murali S. Dubey Snehasis Mukherjee 24 47 0 27 Aug 2019
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps Badri N. Patro Mayank Lunayach Shivansh Patel Vinay P. Namboodiri FAtt UQCV 27 76 0 17 Aug 2019
CRIC: A VQA Dataset for Compositional Reasoning on Vision and Commonsense Difei Gao Ruiping Wang Shiguang Shan Xilin Chen CoGe LRM 20 27 0 08 Aug 2019
Answering Questions about Data Visualizations using Efficient Bimodal Fusion Kushal Kafle Robik Shrestha Brian L. Price Scott D. Cohen Christopher Kanan 25 58 0 05 Aug 2019
An Empirical Study of Batch Normalization and Group Normalization in Conditional Computation Vincent Michalski Vikram S. Voleti Samira Ebrahimi Kahou Anthony Ortiz Pascal Vincent C. Pal Doina Precup BDL 27 6 0 31 Jul 2019
LEAF-QA: Locate, Encode & Attend for Figure Question Answering Ritwick Chaudhry Sumit Shekhar Utkarsh Gupta Pranav Maneriker Prann Bansal Ajay Joshi LMTD 18 85 0 30 Jul 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 25 133 0 22 Jul 2019
Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks Zhu Zhang Zhou Zhao Zhijie Lin Jingkuan Song Xiaofei He BDL 27 14 0 28 Jun 2019
Deep Modular Co-Attention Networks for Visual Question Answering Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Q. Tian 36 798 0 25 Jun 2019