Title
fastabx: A library for efficient computation of ABX discriminability Maxime Poli Emmanuel Chemla Emmanuel Dupoux 34 0 0 05 May 2025
StableQuant: Layer Adaptive Post-Training Quantization for Speech Foundation Models Yeona Hong Hyewon Han Woo-Jin Chung Hong-Goo Kang MQ 28 0 0 21 Apr 2025
Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning Lucas Block Medin Thomas Pellegrini Lucile Gelin SSL 66 1 0 06 Mar 2025
Comprehensive Layer-wise Analysis of SSL Models for Audio Deepfake Detection Yassine El Kheir Youness Samih Suraj Maharjan Tim Polzehl Sebastian Möller 73 1 0 05 Feb 2025
An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals Chuheng Wu S. F. Atashzar Mohammad Mahdi Ghassemi Tuka Alhanai 52 0 0 03 Jan 2025
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario Shih-Heng Wang Zih-Ching Chen Jiatong Shi Ming To Chuang Guan-Ting Lin Kuan Po Huang David Harwath Shang-Wen Li Hung-yi Lee 81 1 0 27 Nov 2024
SCOREQ: Speech Quality Assessment with Contrastive Regression Alessandro Ragano Jan Skoglund Andrew Hines 40 6 0 09 Oct 2024
Sylber: Syllabic Embedding Representation of Speech from Raw Audio Cheol Jun Cho Nicholas Lee Akshat Gupta Dhruv Agarwal Ethan Chen Alan W Black Gopala K. Anumanchipalli 34 0 0 09 Oct 2024
SoundBeam meets M2D: Target Sound Extraction with Audio Foundation Model Carlos Hernandez-Olivan Marc Delcroix Tsubasa Ochiai Daisuke Niizumi Naohiro Tawara Tomohiro Nakatani Shoko Araki 34 2 0 19 Sep 2024
M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart Glasses Yufeng Yang Desh Raj Ju Lin Niko Moritz J. Jia ... Egor Lakomkin Yiteng Huang Jacob Donley Jay Mahadeokar Ozlem Kalinli 26 2 0 17 Sep 2024
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models Li-Wei Chen Takuya Higuchi He Bai Ahmed Hussen Abdelaziz Alexander Rudnicky Shinji Watanabe Tatiana Likhomanenko B. Theobald Zakaria Aldeneh 49 0 0 16 Sep 2024
Towards Automatic Assessment of Self-Supervised Speech Models using Rank Zakaria Aldeneh Vimal Thilak Takuya Higuchi B. Theobald Tatiana Likhomanenko SSL 75 0 0 16 Sep 2024
Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget Andy T. Liu Yi-Cheng Lin Haibin Wu Stefan Winkler Hung-yi Lee 31 1 0 09 Sep 2024
Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation Hemant Yadav Sunayana Sitaram R. Shah SSL 49 0 0 20 Aug 2024
Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization Yuchen Hu Chen Chen Siyin Wang Eng Siong Chng C. Zhang 43 3 0 02 Jul 2024
Sustainable self-supervised learning for speech representations Luis Lugo Valentin Vielzeuf 31 2 0 11 Jun 2024
Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning Chung-Ming Chien Andros Tjandra Apoorv Vyas Matt Le Bowen Shi Wei-Ning Hsu 32 0 0 10 Jun 2024
On the social bias of speech self-supervised models Yi-Cheng Lin T. Lin Hsi-Che Lin Andy T. Liu Hung-yi Lee 39 3 0 07 Jun 2024
Dataset-Distillation Generative Model for Speech Emotion Recognition Fabian Ritter Gutierrez Kuan Po Huang Jeremy H. M Wong Dianwen Ng Hung-yi Lee Nancy F. Chen Eng Siong Chng DD 37 0 0 05 Jun 2024
Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting Ihab Asaad Maxime Jacquelin Olivier Perrotin Laurent Girin Thomas Hueber 33 0 0 30 May 2024
SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model Siavash Shams Sukru Samet Dindar Xilin Jiang N. Mesgarani Mamba 66 18 0 20 May 2024
Anatomy of Industrial Scale Multilingual ASR Francis McCann Ramirez Luka Chkhetiani Andrew Ehrenberg R. McHardy Rami Botros ... Ahmed Efty Daniel McCrystal Sam Flamini Domenic Donato Takuya Yoshioka 36 7 0 15 Apr 2024
Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations Guan-Ting Lin Cheng-Han Chiang Hung-yi Lee 34 22 0 20 Feb 2024
MERBench: A Unified Evaluation Benchmark for Multimodal Emotion Recognition Zheng Lian Guoying Zhao Yong Ren Hao Gu Haiyang Sun Lan Chen Bin Liu Jianhua Tao 21 12 0 07 Jan 2024
Efficiency-oriented approaches for self-supervised speech representation learning Luis Lugo Valentin Vielzeuf SSL 26 1 0 18 Dec 2023
R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces Heng-Jui Chang James R. Glass 33 3 0 15 Nov 2023
Automatic Pronunciation Assessment -- A Review Yassine El Kheir Ahmed M. Ali Shammur A. Chowdhury 26 6 0 21 Oct 2023
SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT Cheol Jun Cho Abdelrahman Mohamed Shang-Wen Li Alan W. Black Gopala K. Anumanchipalli 33 8 0 16 Oct 2023
Few-Shot Spoken Language Understanding via Joint Speech-Text Models Chung-Ming Chien Mingjiamei Zhang Ju-Chieh Chou Karen Livescu 31 3 0 09 Oct 2023
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond Jiatong Shi William Chen Dan Berrebbi Hsiu-Hsuan Wang Wei-Ping Huang ... Yuxun Tang Shang-Wen Li Abdelrahman Mohamed Hung-yi Lee Shinji Watanabe LRM ELM 36 15 0 09 Oct 2023
Test-Time Training for Speech Sri Harsha Dumpala Chandramouli Shama Sastry Sageev Oore 39 1 0 19 Sep 2023
Leveraging Label Information for Multimodal Emotion Recognition Pei-Hsin Wang Sunlu Zeng Junqing Chen Lu Fan Meng Chen Youzheng Wu Xiaodong He 29 4 0 05 Sep 2023
Learning Speech Representation From Contrastive Token-Acoustic Pretraining Chunyu Qiang Hao Li Yixin Tian Ruibo Fu Tao Wang Longbiao Wang J. Dang 29 5 0 01 Sep 2023
On the Use of Self-Supervised Speech Representations in Spontaneous Speech Synthesis Siyang Wang G. Henter Joakim Gustafson Éva Székely 44 5 0 11 Jul 2023
On-Device Constrained Self-Supervised Speech Representation Learning for Keyword Spotting via Knowledge Distillation Gene-Ping Yang Yue Gu Qingming Tang Dongsu Du Yuzong Liu 22 5 0 06 Jul 2023
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants Anuj Diwan Eunsol Choi David Harwath 41 0 0 14 Jun 2023
Experimenting with Additive Margins for Contrastive Self-Supervised Speaker Verification Theo Lepage Reda Dehak SSL 13 3 0 06 Jun 2023
Some voices are too common: Building fair speech recognition systems using the Common Voice dataset Lucas Maison Yannick Esteve 26 3 0 01 Jun 2023
MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models Yu-Hsiang Wang Huan Chen Kai-Wei Chang Winston H. Hsu Hung-yi Lee 21 6 0 30 May 2023
Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target Guanyong Wu Guan-Ting Lin Shang-Wen Li Hung-yi Lee 26 5 0 29 May 2023
Investigating Pre-trained Audio Encoders in the Low-Resource Condition Haomiao Yang Jinming Zhao Gholamreza Haffari Ehsan Shareghi 19 6 0 28 May 2023
Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring Kaiqi Fu Shaojun Gao Shuju Shi Xiaohai Tian Wei Li Zejun Ma 20 2 0 19 May 2023
Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Model Puyuan Peng Shang-Wen Li Okko Rasanen Abdel-rahman Mohamed David Harwath SSL VLM 26 7 0 19 May 2023
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark Jiatong Shi Dan Berrebbi William Chen Ho-Lam Chung En-Pei Hu ... Xuankai Chang Shang-Wen Li Abdel-rahman Mohamed Hung-yi Lee Shinji Watanabe ELM 55 58 0 18 May 2023
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning Alexander H. Liu Heng-Jui Chang Michael Auli Wei-Ning Hsu James R. Glass 24 25 0 17 May 2023
Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models Takanori Ashihara Takafumi Moriya Kohei Matsuura Tomohiro Tanaka 25 3 0 09 May 2023
Cross-Corpora Spoken Language Identification with Domain Diversification and Generalization Spandan Dey Md. Sahidullah G. Saha 18 11 0 10 Feb 2023
Exploring Effective Fusion Algorithms for Speech Based Self-Supervised Learning Models Changli Tang Yujin Wang Xie Chen Weiqiang Zhang 23 2 0 20 Dec 2022
Context-aware Fine-tuning of Self-supervised Speech Models Suwon Shon Felix Wu Kwangyoun Kim Prashant Sridhar Karen Livescu Shinji Watanabe 27 7 0 16 Dec 2022
CHAPTER: Exploiting Convolutional Neural Network Adapters for Self-supervised Speech Models Zih-Ching Chen Yu-Shun Sung Hung-yi Lee 29 16 0 01 Dec 2022