ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification

14 May 2020

Papers citing "ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification"

50 / 231 papers shown

Title
Multiscale Adaptive Conflict-Balancing Model For Multimedia Deepfake Detection Zihan Xiong Xiaohua Wu Lei Chen Fangqi Lou 9 0 0 19 May 2025
RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations Seungmin Kim Sohee Park Donghyun Kim Jisu Lee Daeseon Choi AAML 12 0 0 19 May 2025
Unified Architecture and Unsupervised Speech Disentanglement for Speaker Embedding-Free Enrollment in Personalized Speech Enhancement Ziling Huang Haixin Guan Yanhua Long 14 0 0 18 May 2025
Multi-Stage Speaker Diarization for Noisy Classrooms Ali Sartaz Khan Tolulope Ogunremi Ahmed Attia Dorottya Demszky 12 0 0 16 May 2025
Introducing voice timbre attribute detection Jinghao He Zhengyan Sheng Liping Chen Kong Aik Lee Zhen-Hua Ling 29 1 0 14 May 2025
The Voice Timbre Attribute Detection 2025 Challenge Evaluation Plan Zhengyan Sheng Jinghao He Liping Chen Kong Aik Lee Zhen-Hua Ling 29 0 0 14 May 2025
Listen to Extract: Onset-Prompted Target Speaker Extraction Pengjie Shen Kangrui Chen Shulin He Pengru Chen Shuqi Yuan He Kong Xueliang Zhang Zehao Wang 53 0 0 08 May 2025
MGFF-TDNN: A Multi-Granularity Feature Fusion TDNN Model with Depth-Wise Separable Module for Speaker Verification Ya Li Bin Zhou Bo Hu 232 0 0 06 May 2025
APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech Zhicheng Lian Lizhi Wang Hua Huang 49 0 0 29 Apr 2025
Speaker Retrieval in the Wild: Challenges, Effectiveness and Robustness Erfan Loweimi Mengjie Qian Kate Knill Mark Gales 46 0 0 26 Apr 2025
Quantifying Source Speaker Leakage in One-to-One Voice Conversion Scott Wellington Xuechen Liu Junichi Yamagishi 35 0 0 22 Apr 2025
Privacy-Preserving Biometric Verification with Handwritten Random Digit String Peirong Zhang Yunxing Liu Songxuan Lai Hongliang Li Lianwen Jin 76 2 0 17 Mar 2025
ValSub: Subsampling Validation Data to Mitigate Forgetting during ASR Personalization Haaris Mehmood Karthikeyan P. Saravanan Pablo Peso Parada David Tuckey Mete Ozay Gil Ho Lee Jungin Lee Seokyeong Jung 52 0 0 12 Mar 2025
CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking Yiming Li Kaiying Yan Shuo Shao Tongqing Zhai Shu-Tao Xia Zhanyue Qin D. Tao AAML 199 0 0 02 Mar 2025
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation Anna Min Chenxu Hu Yi Ren Hang Zhao 66 0 0 01 Feb 2025
Safe Gradient Flow for Bilevel Optimization Sina Sharifi Nazanin Abolfazli Erfan Yazdandoost Hamedani Mahyar Fazlyab 46 3 0 27 Jan 2025
Why disentanglement-based speaker anonymization systems fail at preserving emotions? Ünal Ege Gaznepoglu Nils Peters 88 0 0 22 Jan 2025
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 43 6 0 17 Jan 2025
Spectral-Aware Low-Rank Adaptation for Speaker Verification Zhe Li Man-Wai Mak Mert Pilanci Hung-yi Lee Helen Meng 48 0 0 07 Jan 2025
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 47 0 0 03 Jan 2025
autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks Simon Rampp Andreas Triantafyllopoulos M. Milling Björn Schuller 90 0 0 16 Dec 2024
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification Yichen He Yuan Lin Jianchao Wu Hanchong Zhang Yuchen Zhang Ruicheng Le VGen VLM 201 2 0 11 Nov 2024
SF-Speech: Straightened Flow for Zero-Shot Voice Clone Xuyuan Li Zengqiang Shang Hua Hua Peiyang Shi Chen Yang Li Wang Pengyuan Zhang 63 2 0 16 Oct 2024
The First VoicePrivacy Attacker Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Emmanuel Vincent Junichi Yamagishi 131 2 0 09 Oct 2024
Improving Speaker Representations Using Contrastive Losses on Multi-scale Features Satvik Dixit Massa Baali Rita Singh Bhiksha Raj 34 0 0 07 Oct 2024
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation Siyin Wang Wenyi Yu Yudong Yang Changli Tang Yixuan Li ... Jun Zhang Guangzhi Sun Lu Lu Yuxuan Wang Chao Zhang AuLLM LM&MA 72 5 0 25 Sep 2024
MT2KD: Towards A General-Purpose Encoder for Speech, Speaker, and Audio Events Xiaoyu Yang Qiujia Li Chao Zhang P. Woodland 31 0 0 25 Sep 2024
Disentangling Age and Identity with a Mutual Information Minimization Approach for Cross-Age Speaker Verification Fengrun Zhang Wangjin Zhou Yiming Liu Wang Geng Yahui Shan Chen Zhang 33 0 0 24 Sep 2024
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild Jee-weon Jung Yihan Wu Xin Wang Ji-Hoon Kim Soumi Maiti ... Joon Son Chung Wangyou Zhang Seyun Um Shinnosuke Takamichi Shinji Watanabe 71 2 0 18 Sep 2024
High-Resolution Speech Restoration with Latent Diffusion Model Tushar Dhyani Florian Lux Michele Mancusi Giorgio Fabbro Fritz Hohl Ngoc Thang Vu DiffM 37 0 0 17 Sep 2024
Speaker Contrastive Learning for Source Speaker Tracing Qing Wang Hongmei Guo Jian Kang Mengjie Du Jie Li Xiao-Lei Zhang Lei Xie 27 0 0 16 Sep 2024
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification Jin Sob Kim Hyun Joon Park Wooseok Shin Sung Won Han SLR 50 0 0 12 Sep 2024
User-Driven Voice Generation and Editing through Latent Space Navigation Yusheng Tian Junbin Liu Tan Lee DiffM 48 2 0 30 Aug 2024
SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection Ismail Rasim Ulgen Shreeram Suresh Chandra Junchen Lu Berrak Sisman 224 1 0 30 Aug 2024
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation Xiaoxiao Miao Yuxiang Zhang Xin Wang N. Tomashenko D. Soh Ian Mcloughlin 42 2 0 12 Aug 2024
ADD 2023: Towards Audio Deepfake Detection and Analysis in the Wild Jiangyan Yi Chu Yuan Zhang Jianhua Tao Chenglong Wang Xinrui Yan Yong Ren Hao Gu Junzuo Zhou 54 1 0 09 Aug 2024
The CHiME-8 DASR Challenge for Generalizable and Array Agnostic Distant Automatic Speech Recognition and Diarization Samuele Cornell Taejin Park Steve Huang Christoph Boeddeker Xuankai Chang Matthew Maciejewski Sanjeev Khudanpur Paola García Shinji Watanabe 43 9 0 23 Jul 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 47 4 0 21 Jul 2024
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors J. Hauret Malo Olivier Thomas Joubaud C. Langrenne Sarah Poirée V. Zimpfer Éric Bavu 85 1 0 16 Jul 2024
A Benchmark for Multi-speaker Anonymization Xiaoxiao Miao Ruijie Tao Chang Zeng Xin Wang 49 1 0 08 Jul 2024
Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency Roman Aperdannier Sigurd Schacht Alexander Piazza 44 0 0 05 Jul 2024
Prosody-Driven Privacy-Preserving Dementia Detection Dominika Woszczyk Ranya Aloufi Soteris Demetriou 39 2 0 03 Jul 2024
GMM-ResNet2: Ensemble of Group ResNet Networks for Synthetic Speech Detection Zhenchun Lei Hui Yan Changhong Liu Yong Zhou Minglei Ma 47 2 0 02 Jul 2024
Self-Distillation Prototypes Network: Learning Robust Speaker Representations without Supervision Yafeng Chen Siqi Zheng Hui Wang Luyao Cheng Qian Chen Shiliang Zhang Wen Wang SSL 29 2 0 17 Jun 2024
How Should We Extract Discrete Audio Tokens from Self-Supervised Models? Pooneh Mousavi J. Duret Salah Zaiem Luca Della Libera Artem Ploujnikov Cem Subakan Mirco Ravanelli 42 10 0 15 Jun 2024
Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition Guinan Li Jiajun Deng Youjun Chen Mengzhe Geng Shujie Hu ... Zengrui Jin Tianzi Wang Xurong Xie Helen Meng Xunying Liu VLM 34 0 0 14 Jun 2024
INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition Andreas Triantafyllopoulos A. Batliner Simon Rampp M. Milling Björn Schuller VLM 28 0 0 10 Jun 2024
InaGVAD : a Challenging French TV and Radio Corpus Annotated for Speech Activity Detection and Speaker Gender Segmentation D. Doukhan Christine Maertens William Le Personnic Ludovic Speroni Reda Dehak 38 2 0 06 Jun 2024
Hypernetworks for Personalizing ASR to Atypical Speech Max Müller-Eberstein Dianna Yee Karren D. Yang G. Mantena Colin S. Lea 33 1 0 06 Jun 2024
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes Trung D. Q. Dang David Aponte Dung Tran K. Koishida 38 4 0 05 Jun 2024