Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem

24 July 2022

Yan Yan

Papers citing "Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem"

27 / 27 papers shown

Title
The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination Hao Yin Gunagzong Si Zilei Wang 455 0 0 14 Apr 2025
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models Hao Yin Guangzong Si Zilei Wang 390 1 0 17 Mar 2025
From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning Nan Xu Fei Wang Sheng Zhang Hoifung Poon Muhao Chen 110 7 0 01 Jul 2024
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering Zujie Liang Haifeng Hu Jiaying Zhu 72 38 0 29 May 2021
AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss Yangyang Guo Liqiang Nie Zhiyong Cheng Feng Ji Ji Zhang A. Bimbo 55 35 0 05 May 2021
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering Xi Zhu Zhendong Mao Chunxiao Liu Peng Zhang Bin Wang Yongdong Zhang SSL 56 117 0 17 Dec 2020
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering Zihao Zhu Jiahao Yu Yujing Wang Yajing Sun Yue Hu Qi Wu 85 127 0 16 Jun 2020
Counterfactual VQA: A Cause-Effect Look at Language Bias Yulei Niu Kaihua Tang Hanwang Zhang Zhiwu Lu Xiansheng Hua Ji-Rong Wen CML 119 402 0 08 Jun 2020
On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law Damien Teney Kushal Kafle Robik Shrestha Ehsan Abbasnejad Christopher Kanan Anton Van Den Hengel OODD OOD 79 147 0 19 May 2020
Counterfactual Samples Synthesizing for Robust Visual Question Answering Long Chen Xin Yan Jun Xiao Hanwang Zhang Shiliang Pu Yueting Zhuang OOD AAML 208 292 0 14 Mar 2020
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases Christopher Clark Mark Yatskar Luke Zettlemoyer OOD 88 466 0 09 Sep 2019
RUBi: Reducing Unimodal Biases in Visual Question Answering Rémi Cadène Corentin Dancette H. Ben-younes Matthieu Cord Devi Parikh CML 99 373 0 24 Jun 2019
Self-Critical Reasoning for Robust Visual Question Answering Jialin Wu Raymond J. Mooney OOD NAI 73 161 0 24 May 2019
Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded Ramprasaath R. Selvaraju Stefan Lee Yilin Shen Hongxia Jin Shalini Ghosh Larry Heck Dhruv Batra Devi Parikh FAtt VLM 64 254 0 11 Feb 2019
BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection H. Ben-younes Rémi Cadène Nicolas Thome Matthieu Cord 57 218 0 31 Jan 2019
Explainable and Explicit Visual Reasoning over Scene Graphs Jiaxin Shi Hanwang Zhang Juan-Zi Li OCL 198 234 0 05 Dec 2018
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence Dong Huk Park Lisa Anne Hendricks Zeynep Akata Anna Rohrbach Bernt Schiele Trevor Darrell Marcus Rohrbach 83 423 0 15 Feb 2018
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering Aishwarya Agrawal Dhruv Batra Devi Parikh Aniruddha Kembhavi OOD 155 586 0 01 Dec 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 123 4,221 0 25 Jul 2017
Learning to Reason: End-to-End Module Networks for Visual Question Answering Ronghang Hu Jacob Andreas Marcus Rohrbach Trevor Darrell Kate Saenko KELM GNN ReLM LRM 129 579 0 18 Apr 2017
FVQA: Fact-based Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton van den Hengel A. Dick CoGe 87 462 0 17 Jun 2016
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions? Abhishek Das Harsh Agrawal C. L. Zitnick Devi Parikh Dhruv Batra 102 466 0 11 Jun 2016
Adversarial Feature Learning Jiasen Lu Philipp Krahenbuhl Trevor Darrell GAN 127 1,612 0 31 May 2016
Neural Module Networks Jacob Andreas Marcus Rohrbach Trevor Darrell Dan Klein CoGe 139 1,076 0 09 Nov 2015
Stacked Attention Networks for Image Question Answering Zichao Yang Xiaodong He Jianfeng Gao Li Deng Alex Smola BDL 114 1,884 0 07 Nov 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 226 5,503 0 03 May 2015
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation Kyunghyun Cho B. V. Merrienboer Çağlar Gülçehre Dzmitry Bahdanau Fethi Bougares Holger Schwenk Yoshua Bengio AIMat 1.1K 23,388 0 03 Jun 2014