Visual Question Answering: Datasets, Algorithms, and Future Challenges

5 October 2016

Papers citing "Visual Question Answering: Datasets, Algorithms, and Future Challenges"

42 / 42 papers shown

Title
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems Zhixian He Pengcheng Zhao Fuwei Zhang Shujin Lin 46 0 0 14 Sep 2024
OmniCount: Multi-label Object Counting with Semantic-Geometric Priors Anindya Mondal Sauradip Nag Xiatian Zhu Anjan Dutta 36 3 0 08 Mar 2024
Multimodality of AI for Education: Towards Artificial General Intelligence Gyeong-Geon Lee Lehong Shi Ehsan Latif Yizhu Gao Arne Bewersdorff ... Zheng Liu Hui Wang Gengchen Mai Tiaming Liu Xiaoming Zhai 35 38 0 10 Dec 2023
Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook Ming Jin Qingsong Wen Keli Zhang Chaoli Zhang Siqiao Xue ... Shirui Pan Vincent S. Tseng Yu Zheng Lei Chen Hui Xiong AI4TS SyDa 42 118 0 16 Oct 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 25 4 0 26 Jul 2023
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language Shantipriya Parida Idris Abdulmumin Shamsuddeen Hassan Muhammad Aneesh Bose Guneet Singh Kohli I. Ahmad Ketan Kotwal S. Sarkar Ondrej Bojar Habeebah Adamu Kakudi 26 5 0 28 May 2023
Knowledge-Based Counterfactual Queries for Visual Question Answering Theodoti Stoikou Maria Lymperaiou Giorgos Stamou AAML 36 1 0 05 Mar 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 15 1 0 28 Jan 2023
Globally Gated Deep Linear Networks Qianyi Li H. Sompolinsky AI4CE 27 10 0 31 Oct 2022
EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering Violetta Shevchenko Ehsan Abbasnejad A. Dick Anton Van Den Hengel Damien Teney 49 0 0 29 Jun 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering K. Gouthaman Anurag Mittal CML 45 0 0 28 Aug 2021
Learning to Predict Visual Attributes in the Wild Khoi Pham Kushal Kafle Zhe-nan Lin Zhi Ding Scott D. Cohen Q. Tran Abhinav Shrivastava 18 108 0 17 Jun 2021
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads Chenyu Gao Qi Zhu Peng Wang Qi Wu 18 2 0 30 Apr 2021
Selective Replay Enhances Learning in Online Continual Analogical Reasoning Tyler L. Hayes Christopher Kanan CLL 31 20 0 06 Mar 2021
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei Chen Weiping Wang Li Liu M. Lew VLM 118 31 0 16 Oct 2020
A Question-Centric Model for Visual Question Answering in Medical Imaging Minh H. Vu Tommy Löfstedt T. Nyholm Raphael Sznitman MedIm 22 59 0 02 Mar 2020
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering Xinyu Wang Yuliang Liu Chunhua Shen Chun Chet Ng Canjie Luo Lianwen Jin C. Chan Anton Van Den Hengel Liangwei Wang 31 91 0 24 Feb 2020
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing Vedika Agarwal Rakshith Shetty Mario Fritz CML AAML 32 155 0 16 Dec 2019
Assessing the Robustness of Visual Question Answering Models Jia-Hong Huang Modar Alfadly Guohao Li M. Worring AAML OOD 23 23 0 30 Nov 2019
Multimodal Machine Translation through Visuals and Speech U. Sulubacak Ozan Caglayan Stig-Arne Gronroos Aku Rouhe Desmond Elliott Lucia Specia Jörg Tiedemann 49 73 0 28 Nov 2019
Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications Arda Senocak Tae-Hyun Oh Junsik Kim Ming-Hsuan Yang In So Kweon SSL 33 52 0 20 Nov 2019
REMIND Your Neural Network to Prevent Catastrophic Forgetting Tyler L. Hayes Kushal Kafle Robik Shrestha Manoj Acharya Christopher Kanan CLL 31 295 0 06 Oct 2019
Answering Questions about Data Visualizations using Efficient Bimodal Fusion Kushal Kafle Robik Shrestha Brian L. Price Scott D. Cohen Christopher Kanan 25 58 0 05 Aug 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 25 132 0 22 Jul 2019
Don't Take the Premise for Granted: Mitigating Artifacts in Natural Language Inference Yonatan Belinkov Adam Poliak Stuart M. Shieber Benjamin Van Durme Alexander M. Rush 27 94 0 09 Jul 2019
Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches Shane Storks Qiaozi Gao J. Chai 21 128 0 02 Apr 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 25 82 0 01 Mar 2019
Zero-Shot Transfer VQA Dataset Yuanpeng Li Yi Yang Jianyu Wang Wei Xu 19 8 0 02 Nov 2018
Learning Conditioned Graph Structures for Interpretable Visual Question Answering Will Norcliffe-Brown Efstathios Vafeias Sarah Parisot GNN 21 236 0 19 Jun 2018
Customized Image Narrative Generation via Interactive Visual Question Generation and Answering Andrew Shin Yoshitaka Ushiku Tatsuya Harada 44 7 0 27 Apr 2018
DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle Brian L. Price Scott D. Cohen Christopher Kanan AIMat 33 364 0 24 Jan 2018
Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks Guohao Li Hang Su Wenwu Zhu 38 46 0 03 Dec 2017
Active Learning for Visual Question Answering: An Empirical Study Xiaoyu Lin Devi Parikh 44 31 0 06 Nov 2017
Structured Attentions for Visual Question Answering Chen Zhu Yanpeng Zhao Shuaiyi Huang Kewei Tu Yi Ma FAtt 32 106 0 07 Aug 2017
Inferring and Executing Programs for Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Judy Hoffman Li Fei-Fei C. L. Zitnick Ross B. Girshick NAI 26 541 0 10 May 2017
FOIL it! Find One mismatch between Image and Language caption Ravi Shekhar Sandro Pezzelle Yauhen Klimovich Aurélie Herbelot Moin Nabi E. Sangineto Raffaella Bernardi 25 137 0 03 May 2017
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets Wei-Lun Chao Hexiang Hu Fei Sha 22 37 0 24 Apr 2017
An Analysis of Visual Question Answering Algorithms Kushal Kafle Christopher Kanan 30 231 0 28 Mar 2017
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 143 3,130 0 02 Dec 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,465 0 06 Jun 2016
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 218 7,929 0 17 Aug 2015