Automated Audio Captioning with Recurrent Neural Networks

30 June 2017

Papers citing "Automated Audio Captioning with Recurrent Neural Networks"

33 / 33 papers shown

Title
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge Chao-Han Huck Yang Sreyan Ghosh Qing Wang Jaeyeon Kim Hengyi Hong ... Tianyi Zhou Gunhee Kim Jun Du Rafael Valle Bryan Catanzaro 36 0 0 12 May 2025
TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining Paul Primus Florian Schmid Gerhard Widmer CLIP AI4TS VLM 36 0 0 12 May 2025
Temporal Attention Pooling for Frequency Dynamic Convolution in Sound Event Detection Hyeonuk Nam Yong-Hwa Park 33 0 0 17 Apr 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning Jaeyeon Kim Jaeyoon Jung Minjeong Jeon Sang Hoon Woo Jinjoo Lee 24 1 0 02 Sep 2024
Multitask learning in Audio Captioning: a sentence embedding regression loss acts as a regularizer Etienne Labbé J. Pinquier Thomas Pellegrini 48 5 0 02 May 2023
Graph Attention for Automated Audio Captioning Feiyang Xiao Jian Guan Qiaoxi Zhu Wenwu Wang 22 8 0 07 Apr 2023
Prefix tuning for automated audio captioning Minkyu Kim Kim Sung-Bin Tae-Hyun Oh 21 42 0 30 Mar 2023
BLAT: Bootstrapping Language-Audio Pre-training based on AudioSet Tag-guided Synthetic Data Xuenan Xu Zhiling Zhang Zelin Zhou Pingyue Zhang Zeyu Xie Mengyue Wu Ke Zhu CLIP 71 14 0 14 Mar 2023
HEAR4Health: A blueprint for making computer audition a staple of modern healthcare Andreas Triantafyllopoulos Alexander Kathan Alice Baird Lukas Christ Alexander Gebhard ... Shahin Amiriparian K. D. Bartl-Pokorny A. Batliner Florian B. Pokorny Björn W. Schuller 47 7 0 25 Jan 2023
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features Jianyuan Sun Xubo Liu Xinhao Mei Mark D. Plumbley V. Kılıç Wenwu Wang 33 3 0 10 Oct 2022
An investigation on selecting audio pre-trained models for audio captioning Peiran Yan Sheng-Wei Li 26 0 0 12 Aug 2022
Automated Audio Captioning: An Overview of Recent Progress and New Challenges Xinhao Mei Xubo Liu Mark D. Plumbley Wenwu Wang 29 37 0 12 May 2022
Beyond the Status Quo: A Contemporary Survey of Advances and Challenges in Audio Captioning Xuenan Xu Zeyu Xie Mengyue Wu K. Yu 34 13 0 11 May 2022
Automated Audio Captioning using Audio Event Clues Aycsegul Ozkaya Eren M. Sert 26 0 0 18 Apr 2022
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning Chen Chen Nana Hou Yuchen Hu Heqing Zou Xiaofeng Qi Chng Eng Siong VLM 26 21 0 29 Mar 2022
Separate What You Describe: Language-Queried Audio Source Separation Xubo Liu Haohe Liu Qiuqiang Kong Xinhao Mei Jinzheng Zhao Qiushi Huang Mark D. Plumbley Wenwu Wang 42 58 0 28 Mar 2022
Leveraging Pre-trained BERT for Audio Captioning Xubo Liu Xinhao Mei Qiushi Huang Jianyuan Sun Jinzheng Zhao Haohe Liu Mark D. Plumbley Volkan Kilicc Wenwu Wang 33 29 0 06 Mar 2022
Diverse Audio Captioning via Adversarial Training Xinhao Mei Xubo Liu Jianyuan Sun Mark D. Plumbley Wenwu Wang DiffM GAN 48 28 0 13 Oct 2021
Can Audio Captions Be Evaluated with Image Caption Metrics? Zelin Zhou Zhiling Zhang Xuenan Xu Zeyu Xie Mengyue Wu Kenny Q. Zhu 30 42 0 10 Oct 2021
Audio Captioning Using Sound Event Detection Aycsegul Ozkaya Eren M. Sert 43 8 0 04 Oct 2021
Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization Andrew Koh Fuzhao Xue Chng Eng Siong 16 20 0 10 Aug 2021
Audio Captioning Transformer Xinhao Mei Xubo Liu Qiushi Huang Mark D. Plumbley Wenwu Wang ViT 39 77 0 21 Jul 2021
Audio Retrieval with Natural Language Queries Andreea-Maria Oncescu A. Sophia Koepke João F. Henriques Zeynep Akata Samuel Albanie 21 77 0 05 May 2021
Investigating Local and Global Information for Automated Audio Captioning with Transfer Learning Xuenan Xu Heinrich Dinkel Mengyue Wu Zeyu Xie Kai Yu 18 59 0 23 Feb 2021
Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval Yuma Koizumi Yasunori Ohishi Daisuke Niizumi Daiki Takeuchi Masahiro Yasuda 24 40 0 14 Dec 2020
WaveTransformer: A Novel Architecture for Audio Captioning Based on Learning Temporal and Time-Frequency Information An Tran K. Drossos Tuomas Virtanen 39 19 0 21 Oct 2020
Temporal Sub-sampling of Audio Feature Sequences for Automated Audio Captioning K. Nguyen K. Drossos Tuomas Virtanen 15 12 0 06 Jul 2020
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation Yuma Koizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino 21 22 0 01 Jul 2020
A Transformer-based Audio Captioning Model with Keyword Estimation Yuma Koizumi Ryo Masumura Kyosuke Nishida Masahiro Yasuda Shoichiro Saito 18 54 0 01 Jul 2020
Clotho: An Audio Captioning Dataset K. Drossos Samuel Lipping Tuomas Virtanen 31 374 0 21 Oct 2019
Audio Caption: Listen and Tell Mengyue Wu Heinrich Dinkel Kai Yu 22 61 0 25 Feb 2019
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,748 0 26 Sep 2016