Contrastive Audio-Language Learning for Music

25 August 2022

Papers citing "Contrastive Audio-Language Learning for Music"

44 / 44 papers shown

Title
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations Ruben Ciranni Emilian Postolache Giorgio Mariani Michele Mancusi Giorgio Fabbro Emanuele Rodolà Luca Cosmo 231 8 0 10 Jan 2025
Leveraging Pre-trained BERT for Audio Captioning Xubo Liu Xinhao Mei Qiushi Huang Jianyuan Sun Jinzheng Zhao Haohe Liu Mark D. Plumbley Volkan Kilicc Wenwu Wang 91 30 0 06 Mar 2022
SLIP: Self-supervision meets Language-Image Pre-training Norman Mu Alexander Kirillov David Wagner Saining Xie VLM CLIP 148 490 0 23 Dec 2021
Connecting the Dots between Audio and Text without Parallel Data through Visual Knowledge Transfer Yanpeng Zhao Jack Hessel Youngjae Yu Ximing Lu Rowan Zellers Yejin Choi 114 27 0 16 Dec 2021
Learning music audio representations via weak language supervision Ilaria Manco Emmanouil Benetos Elio Quinton Gyorgy Fazekas 139 33 0 08 Dec 2021
Semi-Supervised Music Tagging Transformer Minz Won Keunwoo Choi Xavier Serra ViT MedIm 386 48 0 26 Nov 2021
Towards Learning Universal Audio Representations Luyu Wang Pauline Luc Yan Wu Adrià Recasens Lucas Smaira ... Andrew Jaegle Jean-Baptiste Alayrac Sander Dieleman João Carreira Aaron van den Oord SSL 108 71 0 23 Nov 2021
LiT: Zero-Shot Transfer with Locked-image text Tuning Xiaohua Zhai Tianlin Li Basil Mustafa Andreas Steiner Daniel Keysers Alexander Kolesnikov Lucas Beyer VLM 115 560 0 15 Nov 2021
Wav2CLIP: Learning Robust Audio Representations From CLIP Ho-Hsiang Wu Prem Seetharaman Kundan Kumar J. P. Bello CLIP VLM 145 273 0 21 Oct 2021
Self-Supervised Representation Learning: Introduction, Advances and Challenges Linus Ericsson Henry Gouk Chen Change Loy Timothy M. Hospedales SSL OOD AI4TS 82 278 0 18 Oct 2021
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations Mohammadreza Zolfaghari Yi Zhu Peter V. Gehler Thomas Brox 180 130 0 30 Sep 2021
AudioCLIP: Extending CLIP to Image, Text and Audio A. Guzhov Federico Raue Jörn Hees Andreas Dengel CLIP VLM 127 370 0 24 Jun 2021
Audio Retrieval with Natural Language Queries Andreea-Maria Oncescu A. Sophia Koepke João F. Henriques Zeynep Akata Samuel Albanie 61 79 0 05 May 2021
MusCaps: Generating Captions for Music Audio Ilaria Manco Emmanouil Benetos Elio Quinton Gyorgy Fazekas 87 37 0 24 Apr 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 592 4,093 0 18 Apr 2021
Enriched Music Representations with Multiple Cross-modal Contrastive Learning Andrés Ferraro Xavier Favory Konstantinos Drossos Yuntae Kim Dmitry Bogdanov 121 26 0 01 Apr 2021
Contrastive Learning of Musical Representations Janne Spijkervet J. Burgoyne 178 114 0 17 Mar 2021
BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada K. Kashino SSL 79 179 0 11 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.0K 29,926 0 26 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 463 3,901 0 11 Feb 2021
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers Lisa Anne Hendricks John F. J. Mellor R. Schneider Jean-Baptiste Alayrac Aida Nematzadeh 140 116 0 31 Jan 2021
Unsupervised Contrastive Learning of Sound Event Representations Eduardo Fonseca Diego Ortego Kevin McGuinness Noel E. O'Connor Xavier Serra SSL 70 66 0 15 Nov 2020
Multimodal Metric Learning for Tag-based Music Retrieval Minz Won Sergio Oramas Oriol Nieto F. Gouyon Xavier Serra 135 45 0 30 Oct 2020
Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags Xavier Favory Konstantinos Drossos Tuomas Virtanen Xavier Serra 109 15 0 27 Oct 2020
Contrastive Learning of General-Purpose Audio Representations Aaqib Saeed David Grangier Neil Zeghidour VLM SSL 78 272 0 21 Oct 2020
CLAR: Contrastive Learning of Auditory Representations Haider Al-Tahan Y. Mohsenzadeh SSL 176 56 0 19 Oct 2020
Contrastive Representation Learning: A Framework and Review Phúc H. Lê Khắc Graham Healy Alan F. Smeaton SSL AI4TS 320 715 0 10 Oct 2020
Disentangled Multidimensional Metric Learning for Music Similarity Jongpil Lee Nicholas J. Bryan Justin Salamon Zeyu Jin Juhan Nam 129 40 0 09 Aug 2020
Self-Supervised MultiModal Versatile Networks Jean-Baptiste Alayrac Adrià Recasens R. Schneider Relja Arandjelović Jason Ramapuram J. Fauw Lucas Smaira Sander Dieleman Andrew Zisserman SSL 151 375 0 29 Jun 2020
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations Xavier Favory Konstantinos Drossos Tuomas Virtanen Xavier Serra 114 32 0 15 Jun 2020
A Simple Framework for Contrastive Learning of Visual Representations Ting-Li Chen Simon Kornblith Mohammad Norouzi Geoffrey E. Hinton SSL 390 18,897 0 13 Feb 2020
Clotho: An Audio Captioning Dataset Konstantinos Drossos Samuel Lipping Tuomas Virtanen 109 395 0 21 Oct 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,316 0 27 Aug 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 255 3,699 0 06 Aug 2019
Zero-shot Learning for Audio-based Music Classification and Tagging Jeong-Eun Choi Jongpil Lee Jiyoung Park Juhan Nam VLM 70 45 0 05 Jul 2019
A Theoretical Analysis of Contrastive Unsupervised Representation Learning Sanjeev Arora H. Khandeparkar M. Khodak Orestis Plevrakis Nikunj Saunshi SSL 108 784 0 25 Feb 2019
Music Mood Detection Based On Audio And Lyrics With Deep Neural Net Rémi Delbouys Romain Hennequin Francesco Piccoli Jimena Royo-Letelier Manuel Moussallam 48 85 0 19 Sep 2018
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 351 10,364 0 10 Jul 2018
Learning with Latent Language Jacob Andreas Dan Klein Sergey Levine 84 136 0 01 Nov 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 805 132,725 0 12 Jun 2017
Towards Music Captioning: Generating Music Playlist Descriptions Keunwoo Choi Gyorgy Fazekas Brian McFee Kyunghyun Cho Mark Sandler 67 13 0 17 Aug 2016
A Powerful Generative Model Using Random Weights for the Deep Image Representation Kun He Yan Wang John E. Hopcroft 116 77 0 15 Jun 2016
Neural Machine Translation of Rare Words with Subword Units Rico Sennrich Barry Haddow Alexandra Birch 238 7,760 0 31 Aug 2015
Efficient Estimation of Word Representations in Vector Space Tomas Mikolov Kai Chen G. Corrado J. Dean 3DV 693 31,553 0 16 Jan 2013