VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena

14 December 2021

Papers citing "VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena"

24 / 24 papers shown

Title
Decoupled Global-Local Alignment for Improving Compositional Understanding Xiaoxing Hu Kaicheng Yang J. Z. Wang Haoran Xu Ziyong Feng Zheng Liu VLM 144 0 0 23 Apr 2025
VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models Dahun Kim A. Piergiovanni Ganesh Mallya A. Angelova CoGe 41 0 0 04 Apr 2025
MASS: Overcoming Language Bias in Image-Text Matching Jiwan Chung Seungwon Lim Sangkyu Lee Youngjae Yu VLM 32 0 0 20 Jan 2025
Know "No'' Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP J. Park Jungbeom Lee Jongyoon Song Sangwon Yu Dahuin Jung Sungroh Yoon 45 0 0 19 Jan 2025
Dynamic Negative Guidance of Diffusion Models Felix Koulischer Johannes Deleu G. Raya T. Demeester L. Ambrogioni DiffM 49 2 0 03 Jan 2025
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension Junzhuo Liu X. Yang Weiwei Li Peng Wang ObjD 56 3 0 23 Sep 2024
Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models A. Bavaresco A. Testoni Raquel Fernández 31 2 0 31 May 2024
Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge Brendan Park Madeline Janecek Naser Ezzati-Jivan Yifeng Li Ali Emami 40 0 0 25 May 2024
Natural Language Processing RELIES on Linguistics Juri Opitz Shira Wein Nathan Schneider AI4CE 55 7 0 09 May 2024
Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations? Letitia Parcalabescu Anette Frank MLLM CoGe VLM 84 3 0 29 Apr 2024
3VL: Using Trees to Improve Vision-Language Models' Interpretability Nir Yellinek Leonid Karlinsky Raja Giryes CoGe VLM 49 4 0 28 Dec 2023
Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding Wujian Peng Sicheng Xie Zuyao You Shiyi Lan Zuxuan Wu VLM CoGe MLLM 30 18 0 30 Nov 2023
Semi-supervised multimodal coreference resolution in image narrations A. Goel Basura Fernando Frank Keller Hakan Bilen 38 3 0 20 Oct 2023
An Examination of the Compositionality of Large Generative Vision-Language Models Teli Ma Rong Li Junwei Liang CoGe 34 2 0 21 Aug 2023
Scalable Performance Analysis for Vision-Language Models Santiago Castro Oana Ignat Rada Mihalcea VLM 32 1 0 30 May 2023
Are Diffusion Models Vision-And-Language Reasoners? Benno Krojer Elinor Poole-Dayan Vikram S. Voleti Christopher Pal Siva Reddy 42 13 0 25 May 2023
An Examination of the Robustness of Reference-Free Image Captioning Evaluation Metrics Saba Ahmadi Aishwarya Agrawal 30 6 0 24 May 2023
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark Dongyang Li Ruixue Ding Qiang-Wei Zhang Zheng Li Boli Chen ... Yao Xu Xin Li Ning Guo Fei Huang Xiaofeng He ELM VLM 34 5 0 11 May 2023
Controlling for Stereotypes in Multimodal Language Model Evaluation Manuj Malik Richard Johansson 20 1 0 03 Feb 2023
VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of Vision-Language Models Felix Vogel Nina Shvetsova Leonid Karlinsky Hilde Kuehne VLM 63 7 0 12 Sep 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 66 527 0 13 Jun 2022
Visual Spatial Reasoning Fangyu Liu Guy Edward Toh Emerson Nigel Collier ReLM 42 159 0 30 Apr 2022
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 417 2,588 0 03 Sep 2019
Certified Robustness to Adversarial Word Substitutions Robin Jia Aditi Raghunathan Kerem Göksel Percy Liang AAML 183 291 0 03 Sep 2019