Multi-turn RNN-T for streaming recognition of multi-party speech

Multi-turn RNN-T for streaming recognition of multi-party speech

19 December 2021

Papers citing "Multi-turn RNN-T for streaming recognition of multi-party speech"

17 / 17 papers shown

Title
Summary of the NOTSOFAR-1 Challenge: Highlights and Learnings Igor Abramovski Alon Vinnikov Shalev Shaer Naoyuki Kanda Xiaofei Wang Amir Ivry Eyal Krupka 39 0 0 28 Jan 2025
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 45 0 0 03 Jan 2025
Alignment-Free Training for Transducer-based Multi-Talker ASR Takafumi Moriya Shota Horiguchi Marc Delcroix Ryo Masumura Takanori Ashihara Hiroshi Sato Kohei Matsuura Masato Mimura 33 2 0 30 Sep 2024
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition William Ravenscroft George Close Stefan Goetze Thomas Hain Mohammad Soleymanpour Anurag Chowdhury Mark C. Fuhs 34 0 0 13 Jun 2024
On Speaker Attribution with SURT Desh Raj Matthew Wiesner Matthew Maciejewski Leibny Paola García-Perera Daniel Povey Sanjeev Khudanpur 32 3 0 28 Jan 2024
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction Minchan Kim Myeonghun Jeong Byoung Jin Choi Semin Kim Joun Yeop Lee Nam Soo Kim AI4TS 23 4 0 03 Jan 2024
Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization Thilo von Neumann Christoph Boeddeker Tobias Cord-Landwehr Marc Delcroix Reinhold Haeb-Umbach 23 7 0 28 Sep 2023
t-SOT FNT: Streaming Multi-talker ASR with Text-only Domain Adaptation Capability Jian Wu Naoyuki Kanda Takuya Yoshioka Rui Zhao Zhuo Chen Jinyu Li 21 5 0 15 Sep 2023
MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems Thilo von Neumann Christoph Boeddeker Marc Delcroix Reinhold Haeb-Umbach 29 16 0 21 Jul 2023
Cascaded encoders for fine-tuning ASR models on overlapped speech R. Rose Oscar Chang Olivier Siohan 11 1 0 28 Jun 2023
Mixture Encoder for Joint Speech Separation and Recognition Simon Berger Peter Vieting Christoph Boeddeker Ralf Schluter Reinhold Häb-Umbach 16 6 0 21 Jun 2023
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition Desh Raj Daniel Povey Sanjeev Khudanpur VLM 26 9 0 18 Jun 2023
On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems Thilo von Neumann Christoph Boeddeker K. Kinoshita Marc Delcroix Reinhold Haeb-Umbach 31 19 0 29 Nov 2022
Tandem Multitask Training of Speaker Diarisation and Speech Recognition for Meeting Transcription Xianrui Zheng C. Zhang P. Woodland 26 16 0 08 Jul 2022
Separator-Transducer-Segmenter: Streaming Recognition and Segmentation of Multi-party Speech Ilya Sklyar A. Piunova Christian Osendorfer 9 6 0 10 May 2022
End-to-end multi-talker audio-visual ASR using an active speaker attention module R. Rose Olivier Siohan 11 3 0 01 Apr 2022
Streaming Multi-Talker ASR with Token-Level Serialized Output Training Naoyuki Kanda Jian Wu Yu Wu Xiong Xiao Zhong Meng Xiaofei Wang Yashesh Gaur Zhuo Chen Jinyu Li Takuya Yoshioka 17 54 0 02 Feb 2022