Title
TokSing: Singing Voice Synthesis based on Discrete Tokens Yuning Wu Chunlei Zhang Jiatong Shi Yuxun Tang Shan Yang Qin Jin 41 6 0 12 Jun 2024
SCDNet: Self-supervised Learning Feature-based Speaker Change Detection Yue Li Xinsheng Wang Li Zhang Lei Xie 54 1 0 12 Jun 2024
DCASE 2024 Task 4: Sound Event Detection with Heterogeneous Data and Missing Labels Samuele Cornell Janek Ebbers Constance Douwes Irene Martín-Morató Manu Harju A. Mesaros Romain Serizel 37 13 0 12 Jun 2024
Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection Zihan Pan Tianchi Liu Hardik B. Sailor Qiongqiong Wang 58 10 0 12 Jun 2024
LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning Masaya Kawamura Ryuichi Yamamoto Yuma Shirahata Takuya Hasumi Kentaro Tachibana VLM 29 5 0 12 Jun 2024
Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation Eungbeom Kim Hantae Kim Kyogu Lee 32 1 0 12 Jun 2024
Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations Bulat Khaertdinov Pedro Jeuris Annanda Sousa Enrique Hortal 43 1 0 12 Jun 2024
Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions Anfeng Xu Kevin Huang Tiantian Feng Lue Shen Helen Tager-Flusberg Shrikanth Narayanan 35 2 0 12 Jun 2024
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation Se Jin Park Chae Won Kim Hyeongseop Rha Minsu Kim Joanna Hong Jeong Hun Yeo Yong Man Ro CVBM AuLLM 50 9 0 12 Jun 2024
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment Bing Han Long Zhou Shujie Liu Sanyuan Chen Lingwei Meng Yanming Qian Yanqing Liu Sheng Zhao Jinyu Li Furu Wei 49 15 0 12 Jun 2024
SE/BN Adapter: Parametric Efficient Domain Adaptation for Speaker Recognition Tianhao Wang Lantian Li D. Wang 35 0 0 12 Jun 2024
GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model Yingying Gao Shilei Zhang Chao Deng Junlan Feng 34 0 0 12 Jun 2024
The Interspeech 2024 Challenge on Speech Processing Using Discrete Units Xuankai Chang Jiatong Shi Jinchuan Tian Yuning Wu Yuxun Tang Yihan Wu Shinji Watanabe Yossi Adi Xie Chen Qin Jin 49 16 0 11 Jun 2024
Sustainable self-supervised learning for speech representations Luis Lugo Valentin Vielzeuf 45 2 0 11 Jun 2024
Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment Takuto Igarashi Yuki Saito Kentaro Seki Shinnosuke Takamichi Ryuichi Yamamoto Kentaro Tachibana Hiroshi Saruwatari 37 1 0 11 Jun 2024
EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark Ziyang Ma Mingjie Chen Hezhao Zhang Zhisheng Zheng Wenxi Chen Xiquan Li Jiaxin Ye Xie Chen Thomas Hain 35 14 0 11 Jun 2024
The Reasonable Effectiveness of Speaker Embeddings for Violence Detection Sarthak Jain Orchid Chetia Phukan Arun Balaji Buduru Rajesh Sharma 26 0 0 10 Jun 2024
PERSONA: An Application for Emotion Recognition, Gender Recognition and Age Estimation Devyani Koshal Orchid Chetia Phukan Sarthak Jain Arun Balaji Buduru Rajesh Sharma LLMAG 29 0 0 10 Jun 2024
mHuBERT-147: A Compact Multilingual HuBERT Model Marcely Zanon Boito Vivek Iyer Nikolaos Lagos Laurent Besacier Ioan Calapodescu VLM 75 8 0 10 Jun 2024
Emotion-Aware Speech Self-Supervised Representation Learning with Intensity Knowledge Rui Liu Zening Ma SSL 47 1 0 10 Jun 2024
Zero-Shot End-To-End Spoken Question Answering In Medical Domain Yanis Labrak Adel Moumen Richard Dufour Mickael Rouvier ELM LM&MA MedIm 47 0 0 09 Jun 2024
MaLa-ASR: Multimedia-Assisted LLM-Based ASR Guanrou Yang Ziyang Ma Fan Yu Zhifu Gao Shiliang Zhang Xie Chen AuLLM 49 4 0 09 Jun 2024
An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS Xiaofei Wang Sefik Emre Eskimez Manthan Thakker Hemin Yang Zirun Zhu ... Yufei Xia Jinzhu Li Sheng Zhao Jinyu Li Naoyuki Kanda 48 3 0 09 Jun 2024
SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion Bingsong Bai Fengping Wang Yingming Gao Ya Li 54 0 0 09 Jun 2024
MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations Hemant Yadav Sunayana Sitaram R. Shah SSL 62 1 0 09 Jun 2024
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis Zhijun Liu Shuai Wang Sho Inoue Qibing Bai Haizhou Li DiffM 50 15 0 08 Jun 2024
Exploring the Benefits of Tokenization of Discrete Acoustic Units Avihu Dekel Raul Fernandez 49 2 0 08 Jun 2024
DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models T. Lin Hung-yi Lee Hao Tang 58 1 0 08 Jun 2024
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers Sanyuan Chen Shujie Liu Long Zhou Yanqing Liu Xu Tan Jinyu Li Sheng Zhao Yao Qian Furu Wei VLM 47 67 0 08 Jun 2024
To what extent can ASV systems naturally defend against spoofing attacks? Jee-weon Jung Xin Eric Wang Nicholas W. D. Evans Shinji Watanabe Hye-jin Shim Hemlata Tak Sidhhant Arora Junichi Yamagishi Joon Son Chung AAML 51 4 0 08 Jun 2024
XANE: eXplainable Acoustic Neural Embeddings Sri Harsha Dumpala D. Sharma Chandramouli Shama Sastri S. Kruchinin James Fosburgh Patrick A. Naylor 21 2 0 07 Jun 2024
On the social bias of speech self-supervised models Yi-Cheng Lin T. Lin Hsi-Che Lin Andy T. Liu Hung-yi Lee 44 4 0 07 Jun 2024
XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model Edresson Casanova Kelly Davis Eren Golge Görkem Göknar Iulian Gulea ... Aya Aljafari Joshua Meyer Reuben Morais Samuel Olayemi Julian Weber VLM 46 69 0 07 Jun 2024
LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition Sreyan Ghosh Sonal Kumar Ashish Seth Purva Chiniya Utkarsh Tyagi R. Duraiswami Dinesh Manocha 51 0 0 06 Jun 2024
BLSP-Emo: Towards Empathetic Large Speech-Language Models Chen Wang Minpeng Liao Zhongqiang Huang Junhong Wu Chengqing Zong Jiajun Zhang VLM AuLLM 46 5 0 06 Jun 2024
Genuine-Focused Learning using Mask AutoEncoder for Generalized Fake Audio Detection Xiaopeng Wang Ruibo Fu Zhengqi Wen Zhiyong Wang Yuankun Xie ... Xuefei Liu Yongwei Li Xin Qi Yi Lu Shuchen Shi 38 4 0 05 Jun 2024
Dataset-Distillation Generative Model for Speech Emotion Recognition Fabian Ritter-Gutierrez Kuan Po Huang Jeremy H. M Wong Dianwen Ng Hung-yi Lee Nancy F. Chen Eng Siong Chng DD 49 0 0 05 Jun 2024
ConPCO: Preserving Phoneme Characteristics for Automatic Pronunciation Assessment Leveraging Contrastive Ordinal Regularization Bi-Cheng Yan Wei-Cheng Chao Jiun-Ting Li Yi-Cheng Wang Hsin-Wei Wang Meng-Shin Lin Berlin Chen 23 0 0 05 Jun 2024
CtrSVDD: A Benchmark Dataset and Baseline Analysis for Controlled Singing Voice Deepfake Detection Yongyi Zang Jiatong Shi You Zhang Ryuichi Yamamoto Jionghao Han ... Shengyuan Xu Wenxiao Zhao Jing Guo Tomoki Toda Zhiyao Duan 31 10 0 04 Jun 2024
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models Philip Anastassiou Jiawei Chen Jingshu Chen Yuanzhe Chen Zhuo Chen ... Wenjie Zhang Wenjie Qu Zilin Zhao Dejian Zhong Xiaobin Zhuang 56 83 0 04 Jun 2024
Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models Victor Miara Theo Lepage Reda Dehak 39 1 0 04 Jun 2024
Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations Sarthak Yadav Zheng-Hua Tan Mamba 42 11 0 04 Jun 2024
Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis Kun Zhou Shengkui Zhao Yukun Ma Chong Zhang Hao Wang Dianwen Ng Chongjia Ni Nguyen Trung Hieu J. Yip Bin Ma 41 5 0 04 Jun 2024
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec Shengpeng Ji Jia-li Zuo Minghui Fang Siqi Zheng Qian Chen ... Ziyue Jiang Hai Huang Xize Cheng Rongjie Huang Zhou Zhao 60 8 0 03 Jun 2024
Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer Yongxin Zhu Dan Su Liqiang He Linli Xu Dong Yu 33 6 0 03 Jun 2024
YODAS: Youtube-Oriented Dataset for Audio and Speech Xinjian Li Shinnosuke Takamichi Takaaki Saeki William Chen Sayaka Shiota Shinji Watanabe 45 17 0 02 Jun 2024
SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought Hongyu Gong Bandhav Veluri 63 0 0 30 May 2024
Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting Ihab Asaad Maxime Jacquelin Olivier Perrotin Laurent Girin Thomas Hueber 38 0 0 30 May 2024
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem Mingjie Chen Hezhao Zhang Yuanchao Li Jiachen Luo Wen Wu ... Lin Wang P. Woodland Xie Chen Huy P Phan Thomas Hain 33 0 0 30 May 2024
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation Chenyang Le Yao Qian Dongmei Wang Long Zhou Shujie Liu ... Midia Yousefi Yanmin Qian Jinyu Li Sheng Zhao Michael Zeng 49 3 0 28 May 2024