What do MLLMs hear? Examining reasoning with text and sound components
in Multimodal Large Language Models

What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models

7 June 2024

Enis Berk Çoban

Michael I. Mandel

Johanna Devaney

Papers citing "What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models"

10 / 10 papers shown

Title
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models S.M. Towhidul Islam Tonmoy S. M. M. Zaman Vinija Jain Anku Rani Vipula Rawte Aman Chadha Amitava Das HILM 87 198 0 02 Jan 2024
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 265 945 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 401 4,527 0 30 Jan 2023
When and why vision-language models behave like bags-of-words, and what to do about it? Mert Yuksekgonul Federico Bianchi Pratyusha Kalluri Dan Jurafsky James Zou VLM CoGe 62 387 0 04 Oct 2022
Contrastive Audio-Visual Masked Autoencoder Yuan Gong Andrew Rouditchenko Alexander H. Liu David Harwath Leonid Karlinsky Hilde Kuehne James R. Glass 65 125 0 02 Oct 2022
Emergent Abilities of Large Language Models Jason W. Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph ... Tatsunori Hashimoto Oriol Vinyals Percy Liang J. Dean W. Fedus ELM ReLM LRM 263 2,462 0 15 Jun 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 344 3,515 0 29 Apr 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 87 424 0 07 Apr 2022
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 371 10,273 0 17 Jun 2021
Weak Supervision helps Emergence of Word-Object Alignment and improves Vision-Language Tasks Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 41 15 0 06 Dec 2019