Analyzing the Behavior of Visual Question Answering Models

23 June 2016

Devi Parikh

Papers citing "Analyzing the Behavior of Visual Question Answering Models"

50 / 188 papers shown

Title
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models Hao Yin Guangzong Si Zilei Wang 199 0 0 17 Mar 2025
Task Progressive Curriculum Learning for Robust Visual Question Answering Ahmed Akl Abdelwahed Khamis Zhe Wang Ali Cheraghian Sara Khalifa Kewen Wang OOD 83 0 0 26 Nov 2024
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms Raihan Kabir Naznin Haque Md. Saiful Islam Marium-E. Jannat CoGe 29 1 0 17 Nov 2024
Reducing Hallucinations in Vision-Language Models via Latent Space Steering Sheng Liu Haotian Ye Lei Xing James Zou VLM LLMSV 55 5 0 21 Oct 2024
EventHallusion: Diagnosing Event Hallucinations in Video LLMs Jiacheng Zhang Yang Jiao Shaoxiang Chen Jingjing Chen Zhiyu Tan Hao Li Jingjing Chen MLLM 66 18 0 25 Sep 2024
A Survey on Integrated Sensing, Communication, and Computation Dingzhu Wen Yong Zhou Xiaoyang Li Yuanming Shi Kaibin Huang Khaled B. Letaief 43 24 0 15 Aug 2024
VideoQA in the Era of LLMs: An Empirical Study Junbin Xiao Nanxin Huang Hangyu Qin Dongyang Li Yicong Li ... Zhulin Tao Jianxing Yu Liang Lin Tat-Seng Chua Angela Yao 31 10 0 08 Aug 2024
Causal Understanding For Video Question Answering Bhanu Prakash Reddy Guda Tanmay Kulkarni Adithya Sampath Swarnashree Mysore Sathyendra CML 54 0 0 23 Jul 2024
On the Role of Visual Grounding in VQA Daniel Reich Tanja Schultz 21 1 0 26 Jun 2024
ColorFoil: Investigating Color Blindness in Large Vision and Language Models Ahnaf Mozib Samin M. F. Ahmed Md. Mushtaq Shahriyar Rafee VLM 30 2 0 19 May 2024
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset Xinyu Ma Xuebo Liu Derek F. Wong Jun Rao Bei Li Liang Ding Lidia S. Chao Dacheng Tao Min Zhang 41 2 0 29 Apr 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 50 1 0 01 Apr 2024
Revisiting the Dataset Bias Problem from a Statistical Perspective Kien Do D. Nguyen Hung Le T. Le Dang Nguyen Haripriya Harikumar T. Tran Santu Rana Svetha Venkatesh 22 0 0 05 Feb 2024
Uncovering the Full Potential of Visual Grounding Methods in VQA Daniel Reich Tanja Schultz 32 5 0 15 Jan 2024
A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video Keito Kudo Haruki Nagasawa Jun Suzuki Nobuyuki Shimizu 50 2 0 04 Dec 2023
Understanding Unimodal Bias in Multimodal Deep Linear Networks Yedi Zhang Peter E. Latham Andrew Saxe 34 6 0 01 Dec 2023
Debiasing Multimodal Models via Causal Information Minimization Vaidehi Patil A. Maharana Mohit Bansal CML 38 2 0 28 Nov 2023
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding Sicong Leng Hang Zhang Guanzheng Chen Xin Li Shijian Lu Chunyan Miao Li Bing VLM MLLM 97 202 0 28 Nov 2023
3D-Aware Visual Question Answering about Parts, Poses and Occlusions Xingrui Wang Wufei Ma Zhuowan Li Adam Kortylewski Alan Yuille CoGe 27 12 0 27 Oct 2023
Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models Holy Lovenia Wenliang Dai Samuel Cahyawijaya Ziwei Ji Pascale Fung MLLM 36 51 0 09 Oct 2023
On the Cognition of Visual Question Answering Models and Human Intelligence: A Comparative Study Liben Chen Long Chen Tian Ellison-Chen Zhuoyuan Xu LRM 27 0 0 04 Oct 2023
GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue Yanrui Du Sendong Zhao Yuhan Chen Rai Bai Jing Liu Huaqin Wu Haifeng Wang Bing Qin 48 2 0 08 Sep 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 34 2 0 06 Sep 2023
Learning the meanings of function words from grounded language using a visual question answering model Eva Portelance Michael C. Frank Dan Jurafsky NAI 33 7 0 16 Aug 2023
Robust Visual Question Answering: Datasets, Methods, and Future Challenges Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 32 18 0 21 Jul 2023
Did the Models Understand Documents? Benchmarking Models for Language Understanding in Document-Level Relation Extraction Haotian Chen Bingsheng Chen Xiangdong Zhou 58 6 0 20 Jun 2023
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion Isha Rawal Alexander Matyasko Shantanu Jaiswal Basura Fernando Cheston Tan 26 2 0 15 Jun 2023
Attention-Based Methods For Audio Question Answering Parthasaarathy Sudarsanam Tuomas Virtanen 20 2 0 31 May 2023
Are Diffusion Models Vision-And-Language Reasoners? Benno Krojer Elinor Poole-Dayan Vikram S. Voleti Christopher Pal Siva Reddy 45 13 0 25 May 2023
Pento-DIARef: A Diagnostic Dataset for Learning the Incremental Algorithm for Referring Expression Generation from Examples P. Sadler David Schlangen 29 2 0 24 May 2023
Measuring Faithful and Plausible Visual Grounding in VQA Daniel Reich F. Putze Tanja Schultz 24 5 0 24 May 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 46 13 0 10 May 2023
ODAM: Gradient-based instance-specific visual explanations for object detection Chenyang Zhao Antoni B. Chan FAtt 23 8 0 13 Apr 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 15 1 0 28 Jan 2023
Rationalization for Explainable NLP: A Survey Sai Gurrapu Ajay Kulkarni Lifu Huang Ismini Lourentzou Laura J. Freeman Feras A. Batarseh 36 31 0 21 Jan 2023
Feature-Level Debiased Natural Language Understanding Yougang Lyu Piji Li Yechang Yang Maarten de Rijke Pengjie Ren Yukun Zhao Dawei Yin Z. Ren 32 10 0 11 Dec 2022
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 29 58 0 01 Dec 2022
Using Focal Loss to Fight Shallow Heuristics: An Empirical Analysis of Modulated Cross-Entropy in Natural Language Inference Frano Rajic Ivan Stresec Axel Marmet Tim Postuvan 32 3 0 23 Nov 2022
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering Q. Si Yuanxin Liu Zheng Lin Peng Fu Weiping Wang VLM 42 1 0 26 Oct 2022
Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA Q. Si Fandong Meng Mingyu Zheng Zheng Lin Yuanxin Liu Peng Fu Yanan Cao Weiping Wang Jie Zhou 32 20 0 10 Oct 2022
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 37 23 0 10 Oct 2022
Critical Learning Periods for Multisensory Integration in Deep Networks Michael Kleinman Alessandro Achille Stefano Soatto 35 10 0 06 Oct 2022
ChemAlgebra: Algebraic Reasoning on Chemical Reactions Andrea Valenti D. Bacciu Antonio Vergari OOD LRM 40 0 0 05 Oct 2022
Overcoming Language Priors in Visual Question Answering via Distinguishing Superficially Similar Instances Yike Wu Yu Zhao Shiwan Zhao Ying Zhang Xiaojie Yuan Guoqing Zhao Ning Jiang 90 17 0 18 Sep 2022
Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions Paul Pu Liang Amir Zadeh Louis-Philippe Morency 18 62 0 07 Sep 2022
Generative Bias for Robust Visual Question Answering Jae-Won Cho Dong-Jin Kim H. Ryu In So Kweon OOD CML 33 19 0 01 Aug 2022
Rethinking Data Augmentation for Robust Visual Question Answering Long Chen Yuhang Zheng Jun Xiao OOD 35 42 0 18 Jul 2022
Improving Evaluation of Debiasing in Image Classification Jungsoo Lee Juyoung Lee Sanghun Jung Jaegul Choo 27 0 0 08 Jun 2022
Revisiting the Importance of Amplifying Bias for Debiasing Jungsoo Lee Jeonghoon Park Daeyoung Kim Juyoung Lee Edward Choi Jaegul Choo 57 22 0 29 May 2022
Learning to Retrieve Videos by Asking Questions Avinash Madasu Junier Oliva Gedas Bertasius VGen 32 16 0 11 May 2022