A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input

1 October 2014

Mario Fritz

Papers citing "A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input"

50 / 330 papers shown

Title
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 34 17 0 05 Oct 2022
Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline Lichen Zhao Daigang Cai Jing Zhang Lu Sheng Dong Xu Ruizhi Zheng Yinjie Zhao Lipeng Wang Xibo Fan 14 24 0 24 Sep 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 81 7 0 14 Sep 2022
CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning Adam Dahlgren Lindström Savitha Sam Abraham 19 50 0 10 Aug 2022
ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding Bingning Wang Feiya Lv Ting Yao Yiming Yuan Jin Ma Yu Luo Haijin Liang 31 3 0 05 Aug 2022
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Dustin Schwenk Apoorv Khandelwal Christopher Clark Kenneth Marino Roozbeh Mottaghi 16 507 0 03 Jun 2022
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization Aishwarya Agrawal Ivana Kajić Emanuele Bugliarello Elnaz Davoodi Anita Gergely Phil Blunsom Aida Nematzadeh OOD 40 17 0 24 May 2022
Gender and Racial Bias in Visual Question Answering Datasets Yusuke Hirota Yuta Nakashima Noa Garcia FaML 145 46 0 17 May 2022
A Neuro-Symbolic ASP Pipeline for Visual Question Answering Thomas Eiter N. Higuera J. Oetsch Michael Pritz NAI 22 17 0 16 May 2022
From Easy to Hard: Learning Language-guided Curriculum for Visual Question Answering on Remote Sensing Data Zhenghang Yuan Lichao Mou Q. Wang Xiao Xiang Zhu 27 62 0 06 May 2022
QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning Zechen Li Anders Søgaard 6 6 0 06 May 2022
GRIT: General Robust Image Task Benchmark Tanmay Gupta Ryan Marten Aniruddha Kembhavi Derek Hoiem VLM OOD ObjD 19 31 0 28 Apr 2022
Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering Samuel Lipping Parthasaarathy Sudarsanam Konstantinos Drossos Tuomas Virtanen 24 54 0 20 Apr 2022
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering Vipul Gupta Zhuowan Li Adam Kortylewski Chenyu Zhang Yingwei Li Alan Yuille 35 44 0 05 Apr 2022
Can I see an Example? Active Learning the Long Tail of Attributes and Relations Tyler L. Hayes Maximilian Nickel Christopher Kanan Ludovic Denoyer Arthur Szlam VLM 27 3 0 11 Mar 2022
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models Feng Li Hao Zhang Yi-Fan Zhang Shixuan Liu Jian Guo L. Ni Pengchuan Zhang Lei Zhang AI4TS VLM 24 36 0 03 Mar 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 45 9 0 02 Mar 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 23 3 0 24 Feb 2022
A Review on Methods and Applications in Multimodal Deep Learning Summaira Jabeen Xi Li Muhammad Shoib Amin Abdul Jabbar VLM HAI 32 88 0 18 Feb 2022
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices Mikolaj Malkiñski Jacek Mańdziuk 127 42 0 28 Jan 2022
COIN: Counterfactual Image Generation for VQA Interpretation Zeyd Boukhers Timo Hartmann Jan Jurjens 21 7 0 10 Jan 2022
MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding Revanth Reddy Gangi Reddy Xilin Rui Manling Li Xudong Lin Haoyang Wen ... Joey Tianyi Zhou Avirup Sil Shih-Fu Chang Alex Schwing Heng Ji 25 31 0 20 Dec 2021
ScanQA: 3D Question Answering for Spatial Scene Understanding Daich Azuma Taiki Miyanishi Shuhei Kurita M. Kawanabe 32 179 0 20 Dec 2021
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 31 47 0 15 Dec 2021
Classification-Regression for Chart Comprehension Matan Levy Rami Ben-Ari Dani Lischinski 31 15 0 29 Nov 2021
Multimodal Integration of Human-Like Attention in Visual Question Answering Ekta Sood Fabian Kögel Philippe Muller Dominike Thomas Mihai Bâce Andreas Bulling 41 16 0 27 Sep 2021
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering Ekta Sood Fabian Kögel Florian Strohm Prajit Dhar Andreas Bulling 40 19 0 27 Sep 2021
Improved RAMEN: Towards Domain Generalization for Visual Question Answering Bhanuka Gamage Lim Chern Hong 22 1 0 06 Sep 2021
Weighted Intersection over Union (wIoU) for Evaluating Image Segmentation Yeong-Jun Cho 30 17 0 21 Jul 2021
Target-dependent UNITER: A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots Shintaro Ishikawa K. Sugiura 28 11 0 02 Jul 2021
$C^3$ : Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues Hung Le Nancy F. Chen Guosheng Lin 27 2 0 16 Jun 2021
Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning Piotr Pikekos Henryk Michalewski Mateusz Malinowski 35 28 0 07 Jun 2021
Recent Advances and Trends in Multimodal Deep Learning: A Review Jabeen Summaira Xi Li Amin Muhammad Shoib Songyuan Li Abdul Jabbar HAI 20 55 0 24 May 2021
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions Junbin Xiao Xindi Shang Angela Yao Tat-Seng Chua 45 448 0 18 May 2021
Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention Nihar Bendre K. Desai Peyman Najafirad CoGe 31 6 0 15 May 2021
A survey on VQA_Datasets and Approaches Yeyun Zou Qiyu Xie 47 18 0 02 May 2021
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning Jia-Hong Huang Ting-Wei Wu M. Worring MedIm 68 26 0 26 Apr 2021
Towards Solving Multimodal Comprehension Pritish Sahu Karan Sikka Ajay Divakaran 11 2 0 20 Apr 2021
Zero-Shot Language Transfer vs Iterative Back Translation for Unsupervised Machine Translation Aviral Joshi Chengzhi Huang H. Singh 21 2 0 31 Mar 2021
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks Man Luo Shailaja Keyur Sampat Riley Tallman Yankai Zeng Manuha Vancha Akarshan Sajja Chitta Baral 16 10 0 28 Mar 2021
Select, Substitute, Search: A New Benchmark for Knowledge-Augmented Visual Question Answering Aman Jain Mayank Kothyari Vishwajeet Kumar Preethi Jyothi Ganesh Ramakrishnan Soumen Chakrabarti 27 34 0 09 Mar 2021
Selective Replay Enhances Learning in Online Continual Analogical Reasoning Tyler L. Hayes Christopher Kanan CLL 31 20 0 06 Mar 2021
Understanding in Artificial Intelligence S. Maetschke D. M. Iraola Pieter Barnard Elaheh Shafieibavani Peter Zhong Ying Xu Antonio Jimeno Yepes ELM VLM 24 0 0 17 Jan 2021
DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue Hung Le Chinnadhurai Sankar Seungwhan Moon Ahmad Beirami A. Geramifard Satwik Kottur VGen 41 18 0 01 Jan 2021
On Modality Bias in the TVQA Dataset T. Winterbottom S. Xiao A. McLean Noura Al Moubayed 31 35 0 18 Dec 2020
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions Tayfun Ates Muhammed Samil Atesoglu Cagatay Yigit .Ilker Kesen Mert Kobaş Erkut Erdem Aykut Erdem T. Goksun Deniz Yuret 27 31 0 08 Dec 2020
FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding Maryam Rahnemoonfar Tashnim Chowdhury Argho Sarkar D. Varshney M. Yari Robin Murphy 22 243 0 05 Dec 2020
Reasoning Over History: Context Aware Visual Dialog Muhammad A. Shah Shikib Mehri Tejas Srinivasan 11 3 0 02 Nov 2020
Vision Skills Needed to Answer Visual Questions Xiaoyu Zeng Yanan Wang Tai-Yin Chiu Nilavra Bhattacharya Danna Gurari 16 17 0 07 Oct 2020
Pathological Visual Question Answering Xuehai He Zhuo Cai Wenlan Wei Yichen Zhang Luntian Mou Eric Xing P. Xie 75 24 0 06 Oct 2020