Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval

Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval

6 October 2022

Benno Weck

Miguel Pérez Fernández

Holger Kirchhoff

Xavier Serra

ArXiv (abs)PDF HTML

Papers citing "Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval"

7 / 7 papers shown

Title
LiT: Zero-Shot Transfer with Locked-image text Tuning Xiaohua Zhai Tianlin Li Basil Mustafa Andreas Steiner Daniel Keysers Alexander Kolesnikov Lucas Beyer VLM 108 560 0 15 Nov 2021
Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning Benno Weck Xavier Favory Konstantinos Drossos Xavier Serra 54 8 0 14 Oct 2021
FSD50K: An Open Dataset of Human-Labeled Sound Events Eduardo Fonseca Xavier Favory Jordi Pons F. Font Xavier Serra 100 466 0 01 Oct 2020
PyTorch Metric Learning Kevin Musgrave Serge J. Belongie Ser-Nam Lim 44 106 0 20 Aug 2020
PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley VLM SSL 194 1,084 0 21 Dec 2019
Clotho: An Audio Captioning Dataset Konstantinos Drossos Samuel Lipping Tuomas Virtanen 101 394 0 21 Oct 2019
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor Sanh Lysandre Debut Julien Chaumond Thomas Wolf 255 7,547 0 02 Oct 2019