SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context
in Visual Question Answering

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering

5 April 2022

Adam Kortylewski

ArXiv (abs)PDF HTML Github (20★)

Papers citing "SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering"

13 / 13 papers shown

Title
HalLoc: Token-level Localization of Hallucinations for Vision Language Models Eunkyu Park Minyeong Kim Gunhee Kim MLLM HILM VLM 145 0 0 12 Jun 2025
The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination Hao Yin Gunagzong Si Zilei Wang 496 0 0 14 Apr 2025
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models Hao Yin Guangzong Si Zilei Wang 420 1 0 17 Mar 2025
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation Christel Chappuis Eliot Walt Vincent Mendez Sylvain Lobry B. L. Saux D. Tuia 101 4 0 28 Nov 2023
MSMix:An Interpolation-Based Text Data Augmentation Method Manifold Swap Mixup Mao Ye Haitao Wang Zheqian Chen 67 1 0 31 May 2023
Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton Features Fumiaki Sato Ryo Hachiuma Taiki Sekii 71 22 0 27 Mar 2023
Logical Implications for Visual Question Answering Consistency Sergio Tascon-Morales Pablo Márquez-Neila Raphael Sznitman 81 9 0 16 Mar 2023
Selectively Hard Negative Mining for Alleviating Gradient Vanishing in Image-Text Matching Zheng Li Caili Guo Xin Eric Wang Zerun Feng Zhongtian Du VLM 90 4 0 01 Mar 2023
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 108 70 0 01 Dec 2022
Cross-Modal Contrastive Learning for Robust Reasoning in VQA Qinjie Zheng Chaoyue Wang Daqing Liu Dadong Wang Dacheng Tao LRM 61 0 0 21 Nov 2022
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives Zhuofan Ying Peter Hase Joey Tianyi Zhou LRM 87 13 0 22 Jun 2022
SimVQA: Exploring Simulated Environments for Visual Question Answering Paola Cascante-Bonilla Hui Wu Letao Wang Rogerio Feris Vicente Ordonez 84 7 0 31 Mar 2022
Differentiated Relevances Embedding for Group-based Referring Expression Comprehension Fuhai Chen Xuri Ge Xiaoshuai Sun Yue Gao Jianzhuang Liu Feiyue Huang Rongrong Ji 75 0 0 12 Mar 2022