VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

20 March 2018

Jianfei Cai

Papers citing "VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions"

50 / 61 papers shown

Title
ChartQA-X: Generating Explanations for Charts Shamanthak Hegde Pooyan Fazli H. Seifi 27 0 0 17 Apr 2025
V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models Xiangxi Zheng Linjie Li Zhengyuan Yang Ping Yu Alex Jinpeng Wang Rui Yan Yuan Yao Lijuan Wang LRM 26 0 0 08 Apr 2025
MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding Weikang Qiu Zheng Huang Haoyu Hu Aosong Feng Yujun Yan Rex Ying 47 0 0 18 Feb 2025
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis Bo Liu K. Zou Liming Zhan Zexin Lu Xiaoyu Dong Yidi Chen Chengqiang Xie Jiannong Cao Xiao-Ming Wu Huazhu Fu 122 0 0 25 Nov 2024
LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies Ameer Hamza Abdullah Yong Hyun Ahn Sungyoung Lee Seong Tae Kim 26 2 0 07 Oct 2024
Towards Efficient and Robust VQA-NLE Data Generation with Large Vision-Language Models Patrick Amadeus Irawan Genta Indra Winata Samuel Cahyawijaya Ayu Purwarianti 34 0 0 23 Sep 2024
GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths Xianyu Chen Ming Jiang Qi Zhao 24 2 0 05 Aug 2024
Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective Zhaotian Weng Zijun Gao Jerone Andrews Jieyu Zhao 33 0 0 03 Jul 2024
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks Yang Liu Xiaomin Yu Gongyu Zhang Christos Bergeles Prokar Dasgupta Alejandro Granados Sebastien Ourselin 48 2 0 27 Feb 2024
II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering Jihyung Kil Farideh Tavazoee Dongyeop Kang Joo-Kyung Kim LRM 31 2 0 16 Feb 2024
A Survey on Safe Multi-Modal Learning System Tianyi Zhao Liangliang Zhang Yao Ma Lu Cheng 60 9 0 08 Feb 2024
Convincing Rationales for Visual Question Answering Reasoning Kun Li G. Vosselman Michael Ying Yang 44 1 0 06 Feb 2024
COCO is "ALL'' You Need for Visual Instruction Fine-tuning Xiaotian Han Yiqi Wang Bohan Zhai Quanzeng You Hongxia Yang VLM MLLM 33 2 0 17 Jan 2024
CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update Zhi Gao Yuntao Du Xintong Zhang Xiaojian Ma Wenjuan Han Song-Chun Zhu Qing Li LLMAG VLM 31 21 0 18 Dec 2023
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata 34 2 0 08 Nov 2023
Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts Deepanway Ghosal Navonil Majumder Roy Ka-Wei Lee Rada Mihalcea Soujanya Poria 30 7 0 31 Oct 2023
Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond Zhecan Wang Long Chen Haoxuan You Keyang Xu Yicheng He Wenhao Li Noal Codella Kai-Wei Chang Shih-Fu Chang 30 3 0 23 Oct 2023
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models Yanyang Guo Fangkai Jiao Zhiqi Shen Liqiang Nie Mohan S. Kankanhalli MLLM 30 5 0 17 Oct 2023
Black-box Attacks on Image Activity Prediction and its Natural Language Explanations Alina Elena Baia Valentina Poggioni Andrea Cavallaro AAML 18 1 0 30 Sep 2023
Reward Engineering for Generating Semi-structured Explanation Jiuzhou Han Wray L. Buntine Ehsan Shareghi LRM 19 0 0 15 Sep 2023
A Survey on Interpretable Cross-modal Reasoning Dizhan Xue Shengsheng Qian Zuyi Zhou Changsheng Xu LRM 29 4 0 05 Sep 2023
Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks Fawaz Sammani Nikos Deligiannis 13 5 0 17 Aug 2023
Visual Instruction Tuning with Polite Flamingo Delong Chen Jianfeng Liu Wenliang Dai Baoyuan Wang MLLM 34 42 0 03 Jul 2023
Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research Directions N. Rodis Christos Sardianos Panagiotis I. Radoglou-Grammatikis Panagiotis G. Sarigiannidis Iraklis Varlamis Georgios Th. Papadopoulos 25 22 0 09 Jun 2023
ZARA: Improving Few-Shot Self-Rationalization for Small Language Models Wei-Lin Chen An-Zi Yen Cheng-Kuang Wu Hen-Hsen Huang Hsin-Hsi Chen ReLM LRM 24 10 0 12 May 2023
Harnessing Knowledge and Reasoning for Human-Like Natural Language Generation: A Brief Review Jiangjie Chen Yanghua Xiao 44 4 0 07 Dec 2022
A survey on knowledge-enhanced multimodal learning Maria Lymperaiou Giorgos Stamou 41 14 0 19 Nov 2022
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision Sophia Gu Christopher Clark Aniruddha Kembhavi VLM 22 24 0 17 Nov 2022
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense Zhecan Wang Haoxuan You Yicheng He Wenhao Li Kai-Wei Chang Shih-Fu Chang 23 5 0 10 Nov 2022
Towards Reasoning-Aware Explainable VQA Rakesh Vaideeswaran Feng Gao Abhinav Mathur Govind Thattai LRM 38 3 0 09 Nov 2022
Interactive Question Answering Systems: Literature Review Giovanni Maria Biancofiore Yashar Deldjoo Tommaso Di Noia E. Sciascio Fedelucio Narducci 34 13 0 04 Sep 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 30 20 0 05 Apr 2022
CARETS: A Consistency And Robustness Evaluative Test Suite for VQA Carlos E. Jimenez Olga Russakovsky Karthik Narasimhan CoGe 23 14 0 15 Mar 2022
REX: Reasoning-aware and Grounded Explanation Shi Chen Qi Zhao 25 18 0 11 Mar 2022
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks Fawaz Sammani Tanmoy Mukherjee Nikos Deligiannis MILM ELM LRM 21 67 0 09 Mar 2022
Joint Answering and Explanation for Visual Commonsense Reasoning Zhenyang Li Yangyang Guo Ke-Jyun Wang Yin-wei Wei Liqiang Nie Mohan S. Kankanhalli 24 16 0 25 Feb 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 180 402 0 10 Sep 2021
On the Diversity and Limits of Human Explanations Chenhao Tan 19 31 0 22 Jun 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 29 139 0 17 May 2021
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks Maxime Kayser Oana-Maria Camburu Leonard Salewski Cornelius Emde Virginie Do Zeynep Akata Thomas Lukasiewicz VLM 26 100 0 08 May 2021
Local Interpretations for Explainable Natural Language Processing: A Survey Siwen Luo Hamish Ivison S. Han Josiah Poon MILM 33 48 0 20 Mar 2021
Teach Me to Explain: A Review of Datasets for Explainable Natural Language Processing Sarah Wiegreffe Ana Marasović XAI 11 141 0 24 Feb 2021
Narration Generation for Cartoon Videos Nikos Papasarantopoulos Shay B. Cohen VGen 20 2 0 17 Jan 2021
Explainability of deep vision-based autonomous driving systems: Review and challenges Éloi Zablocki H. Ben-younes P. Pérez Matthieu Cord XAI 42 170 0 13 Jan 2021
LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering Weixin Liang Fei Niu Aishwarya N. Reganti Govind Thattai Gokhan Tur 34 17 0 21 Nov 2020
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions Radhika Dua Sai Srinivas Kancheti V. Balasubramanian LRM 38 22 0 24 Oct 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei Chen Weiping Wang Li Liu M. Lew VLM 118 31 0 16 Oct 2020
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs Ana Marasović Chandra Bhagavatula J. S. Park Ronan Le Bras Noah A. Smith Yejin Choi ReLM LRM 18 62 0 15 Oct 2020
Easy, Reproducible and Quality-Controlled Data Collection with Crowdaq Qiang Ning Hao Wu Pradeep Dasigi Dheeru Dua Matt Gardner Robert L Logan IV Ana Marasović Zhenjin Nie 30 16 0 06 Oct 2020
$Improving VQA and its Explanations \\ by Comparing Competing Explanations$ Improving VQA and its Explanations \\ by Comparing Competing Explanations Jialin Wu Liyan Chen Raymond J. Mooney FAtt AAML 33 17 0 28 Jun 2020