CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding

1 September 2023

Papers citing "CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding"

5 / 5 papers shown

Title
SSLAM: Enhancing Self-Supervised Models with Audio Mixtures for Polyphonic Soundscapes Tony Alex S. Ahmed A. Mustafa Muhammad Awais Philip J. B. Jackson 37 1 0 13 Jun 2025
Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model Yong Ren Chenxing Li Le Xu Hao Gu Duzhen Zhang Yujie Chen Manjie Xu Ruibo Fu Shan Yang Dong Yu LRM 92 0 0 19 May 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 201 3 0 10 Jan 2025
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya Alex Schwing Yuki Mitsufuji VGen 310 18 0 19 Dec 2024
Xception: Deep Learning with Depthwise Separable Convolutions François Chollet MDE BDL PINN 1.9K 14,698 0 07 Oct 2016