Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity

3 October 2022

Papers citing "Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity"

19 / 19 papers shown

Title
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 171 3 0 10 Jan 2025
Diverse Audio Captioning via Adversarial Training Xinhao Mei Xubo Liu Jianyuan Sun Mark D. Plumbley Wenwu Wang DiffM GAN 83 28 0 13 Oct 2021
Can Audio Captions Be Evaluated with Image Caption Metrics? Zelin Zhou Zhiling Zhang Xuenan Xu Zeyu Xie Mengyue Wu Kenny Q. Zhu 66 46 0 10 Oct 2021
Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization Andrew Koh Fuzhao Xue Chng Eng Siong 58 20 0 10 Aug 2021
Audio Captioning Transformer Xinhao Mei Xubo Liu Qiushi Huang Mark D. Plumbley Wenwu Wang ViT 81 78 0 21 Jul 2021
Audio Retrieval with Natural Language Queries Andreea-Maria Oncescu A. Sophia Koepke João F. Henriques Zeynep Akata Samuel Albanie 63 79 0 05 May 2021
Text-to-Audio Grounding: Building Correspondence Between Captions and Sound Events Xuenan Xu Heinrich Dinkel Mengyue Wu Kai Yu 64 25 0 23 Feb 2021
Towards duration robust weakly supervised sound event detection Heinrich Dinkel Mengyue Wu Kai Yu 54 48 0 19 Jan 2021
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation Yuma Koizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada K. Kashino 92 23 0 01 Jul 2020
Clotho: An Audio Captioning Dataset Konstantinos Drossos Samuel Lipping Tuomas Virtanen 112 395 0 21 Oct 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,332 0 27 Aug 2019
Crowdsourcing a Dataset of Audio Captions Samuel Lipping Konstantinos Drossos Tuomas Virtanen 47 33 0 22 Jul 2019
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning Jingwen Chen Yingwei Pan Yehao Li Ting Yao Hongyang Chao Tao Mei 76 103 0 03 May 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 378 5,872 0 21 Apr 2019
Audio Caption: Listen and Tell Mengyue Wu Heinrich Dinkel Kai Yu 78 61 0 25 Feb 2019
Enhancing Sound Texture in CNN-Based Acoustic Scene Classification Yuzhong Wu Tan Lee 45 39 0 06 Jan 2019
Automated Audio Captioning with Recurrent Neural Networks Konstantinos Drossos Sharath Adavanne Tuomas Virtanen 79 129 0 30 Jun 2017
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 108 1,921 0 29 Jul 2016
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 308 4,520 0 20 Nov 2014