Title
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction Bang Zeng Ming Li 37 2 0 04 Sep 2024
Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance Tsubasa Ochiai Kazuma Iwamoto Marc Delcroix Rintaro Ikeshita Hiroshi Sato Shoko Araki Shigeru Katagiri 29 2 0 23 Apr 2024
Continuous Target Speech Extraction: Enhancing Personalized Diarization and Extraction on Complex Recordings He Zhao Hangting Chen Jianwei Yu Yuehai Wang 51 0 0 29 Jan 2024
SVVAD: Personal Voice Activity Detection for Speaker Verification Zuheng Kang Jianzong Wang Junqing Peng Jing Xiao 11 2 0 31 May 2023
Streaming Audio Transformers for Online Audio Tagging Heinrich Dinkel Zhiyong Yan Yongqing Wang Junbo Zhang Yujun Wang Bin Wang 34 4 0 29 May 2023
A Neural State-Space Model Approach to Efficient Speech Separation Chen Chen Chao-Han Huck Yang Kai Li Yuchen Hu Pin-Jui Ku Chng Eng Siong 34 11 0 26 May 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 42 47 0 21 Mar 2023
Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings Kai Liu Xucheng Wan Z.C. Du Huan Zhou VLM 27 1 0 16 Jan 2023
Breaking the trade-off in personalized speech enhancement with cross-task knowledge distillation H. Taherian Sefik Emre Eskimez Takuya Yoshioka 24 1 0 05 Nov 2022
Real-Time Joint Personalized Speech Enhancement and Acoustic Echo Cancellation Sefik Emre Eskimez Takuya Yoshioka Alex Ju M. Tang Tanel Pärnamaa Huaming Wang 27 7 0 04 Nov 2022
Streaming Target-Speaker ASR with Neural Transducer Takafumi Moriya Hiroshi Sato Tsubasa Ochiai Marc Delcroix T. Shinozaki 28 21 0 09 Sep 2022
Semi-supervised Time Domain Target Speaker Extraction with Attention Zhepei Wang Ritwik Giri Shrikant Venkataramani Umut Isik J. Valin Paris Smaragdis Mike Goodwin A. Krishnaswamy 24 7 0 18 Jun 2022
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yuki Takashima Y. Kawaguchi 39 23 0 06 Jun 2022
Fast Real-time Personalized Speech Enhancement: End-to-End Enhancement Network (E3Net) and Knowledge Distillation Manthan Thakker Sefik Emre Eskimez Takuya Yoshioka Huaming Wang 14 28 0 02 Apr 2022
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction Zexu Pan Meng Ge Haizhou Li 21 17 0 31 Mar 2022
Separate What You Describe: Language-Queried Audio Source Separation Xubo Liu Haohe Liu Qiuqiang Kong Xinhao Mei Jinzheng Zhao Qiushi Huang Mark D. Plumbley Wenwu Wang 42 58 0 28 Mar 2022
Cross-attention conformer for context modeling in speech enhancement for ASR A. Narayanan Chung-Cheng Chiu Tom O'Malley Quan Wang Yanzhang He 24 14 0 30 Oct 2021
Personalized Speech Enhancement: New Models and Comprehensive Evaluation Sefik Emre Eskimez Takuya Yoshioka Huaming Wang Xiaofei Wang Zhuo Chen Xuedong Huang 32 62 0 18 Oct 2021
BeamTransformer: Microphone Array-based Overlapping Speech Detection Siqi Zheng Shiliang Zhang Weilong Huang Qian Chen Hongbin Suo Ming Lei Jinwei Feng Zhijie Yan 37 7 0 09 Sep 2021
Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech Recognition Hiroshi Sato Tsubasa Ochiai Marc Delcroix K. Kinoshita Takafumi Moriya Naoyuki Kamo 25 23 0 02 Jun 2021
Configurable Privacy-Preserving Automatic Speech Recognition Ranya Aloufi Hamed Haddadi David E. Boyle 25 10 0 01 Apr 2021
Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures Jun Wang Jie Chen Dan Su Lianwu Chen Meng Yu Y. Qian Dong Yu 46 90 0 24 Jul 2018