Audio-Text Models Do Not Yet Leverage Natural Language

Audio-Text Models Do Not Yet Leverage Natural Language

19 March 2023

Papers citing "Audio-Text Models Do Not Yet Leverage Natural Language"

10 / 10 papers shown

Title
TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining Paul Primus Florian Schmid Gerhard Widmer CLIP AI4TS VLM 36 0 0 12 May 2025
FLAM: Frame-Wise Language-Audio Modeling Yusong Wu Christos Tsirigotis Ke Chen Cheng-Zhi Anna Huang Rameswar Panda Oriol Nieto Prem Seetharaman Justin Salamon 55 0 0 08 May 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
Sequential Contrastive Audio-Visual Learning Ioannis Tsiamas Santiago Pascual Chunghsin Yeh Joan Serrà 50 2 0 08 Jul 2024
Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval Paul Primus Gerhard Widmer 52 3 0 22 Jun 2024
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations David Xu 31 2 0 17 May 2024
CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models Sreyan Ghosh Ashish Seth Sonal Kumar Utkarsh Tyagi Chandra Kiran Reddy Evuru S. Ramaneswaran S. Sakshi Oriol Nieto R. Duraiswami Dinesh Manocha AuLLM VLM CoGe 45 23 0 12 Oct 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 44 224 0 10 Aug 2023
Language-based Audio Retrieval Task in DCASE 2022 Challenge Huang Xie Samuel Lipping Tuomas Virtanen 70 18 0 20 Sep 2022
Out of Order: How Important Is The Sequential Order of Words in a Sentence in Natural Language Understanding Tasks? Thang M. Pham Trung Bui Long Mai Anh Totti Nguyen 220 122 0 30 Dec 2020