End-to-end training of time domain audio separation and recognition

18 December 2019

Papers citing "End-to-end training of time domain audio separation and recognition"

9 / 9 papers shown

Title
AG-LSEC: Audio Grounded Lexical Speaker Error Correction Rohit Paturi Xiang Li S. Srinivasan 30 1 0 25 Jun 2024
MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou J. Yip Dianwen Ng Bin Ma 13 21 0 19 Dec 2023
Mixture Encoder for Joint Speech Separation and Recognition Simon Berger Peter Vieting Christoph Boeddeker Ralf Schluter Reinhold Häb-Umbach 16 6 0 21 Jun 2023
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition Desh Raj Daniel Povey Sanjeev Khudanpur VLM 26 9 0 18 Jun 2023
Heterogeneous Separation Consistency Training for Adaptation of Unsupervised Speech Separation Jiangyu Han Yanhua Long 28 6 0 23 Apr 2022
Multi-turn RNN-T for streaming recognition of multi-party speech Ilya Sklyar A. Piunova Xianrui Zheng Yulan Liu 21 22 0 19 Dec 2021
Closing the Gap Between Time-Domain Multi-Channel Speech Enhancement on Real and Simulation Conditions Wangyou Zhang Jing Shi Chenda Li Shinji Watanabe Y. Qian 19 22 0 27 Oct 2021
USEV: Universal Speaker Extraction with Visual Cue Zexu Pan Meng Ge Haizhou Li 34 41 0 30 Sep 2021
A Multi-Phase Gammatone Filterbank for Speech Separation via TasNet David Ditter Timo Gerkmann 11 57 0 25 Oct 2019