Title
Myna: Masking-Based Contrastive Learning of Musical Representations Ori Yonay Tracy Hammond Tianbao Yang AAML 61 0 0 20 Feb 2025
Evaluation of Deep Audio Representations for Hearables Fabian Gröger Pascal Baumann Ludovic Amruthalingam Laurent Simon Ruksana Giurda Simone Lionetti 88 0 0 10 Feb 2025
Leveraging Broadcast Media Subtitle Transcripts for Automatic Speech Recognition and Subtitling Jakob Poncelet Hugo Van hamme 69 0 0 05 Feb 2025
AudioRepInceptionNeXt: A lightweight single-stream architecture for efficient audio recognition Kin Wai Lau Yasar Abbas Ur Rehman L. Po 44 1 0 21 Apr 2024
On the choice of the optimal temporal support for audio classification with Pre-trained embeddings Aurian Quélennec Michel Olvera Geoffroy Peeters S. Essid 25 2 0 21 Dec 2023
Efficient Supervised Training of Audio Transformers for Music Representation Learning Pablo Alonso-Jiménez Xavier Serra Dmitry Bogdanov ViT 35 3 0 28 Sep 2023
Pre-Training Strategies Using Contrastive Learning and Playlist Information for Music Classification and Similarity Pablo Alonso-Jiménez Xavier Favory Hadrien Foroughmand Grigoris Bourdalas Xavier Serra T. Lidy Dmitry Bogdanov 37 6 0 24 Apr 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 23 2 0 12 Apr 2023
Enhancing Unsupervised Audio Representation Learning via Adversarial Sample Generation Yulin Pan Xiangteng He Biao Gong Yuxin Peng Yiliang Lv SSL 21 0 0 15 Mar 2023
Improving Self-Supervised Learning for Audio Representations by Feature Diversity and Decorrelation Bac Nguyen Stefan Uhlich Fabien Cardinaux SSL 42 3 0 07 Mar 2023
Low-Complexity Audio Embedding Extractors Florian Schmid Khaled Koutini Gerhard Widmer 21 4 0 03 Mar 2023
Contrastive Self-Supervised Learning for Skeleton Representations N. Lingg Miguel Sarabia Luca Zappella B. Theobald SSL 19 0 0 10 Nov 2022
AVES: Animal Vocalization Encoder based on Self-Supervision Masato Hagiwara CLIP VLM AI4TS 19 24 0 26 Oct 2022
Equivariant Self-Supervision for Musical Tempo Estimation Elio Quinton 32 9 0 03 Sep 2022
Contrastive Audio-Language Learning for Music Ilaria Manco Emmanouil Benetos Elio Quinton Gyorgy Fazekas 27 44 0 25 Aug 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 128 349 0 21 May 2022
Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino 24 5 0 17 May 2022
Sound Localization by Self-Supervised Time Delay Estimation Ziyang Chen David Fouhey Andrew Owens SSL 24 19 0 26 Apr 2022
Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino 29 65 0 26 Apr 2022
BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino SSL 36 53 0 15 Apr 2022
Self-supervised learning for robust voice cloning Konstantinos Klapsas Nikolaos Ellinas Karolos Nikitaras G. Vamvoukakis Panos Kakoulidis ... S. Raptis June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis SSL 27 6 0 07 Apr 2022
A Study on Robustness to Perturbations for Representations of Environmental Sound Sangeeta Srivastava Ho-Hsiang Wu Joao Rulff Magdalena Fuentes M. Cartwright Claudio Silva Anish Arora J. P. Bello 20 5 0 20 Mar 2022
Audio Self-supervised Learning: A Survey Shuo Liu Adria Mallol-Ragolta Emilia Parada-Cabeleiro Kun Qian Xingshuo Jing Alexander Kathan Bin Hu Bjoern W. Schuller SSL 35 106 0 02 Mar 2022
Multimodal Self-Supervised Learning of General Audio Representations Luyu Wang Pauline Luc Adrià Recasens Jean-Baptiste Alayrac Aaron van den Oord SSL 78 41 0 26 Apr 2021
High-Performance Large-Scale Image Recognition Without Normalization Andrew Brock Soham De Samuel L. Smith Karen Simonyan VLM 223 512 0 11 Feb 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018