Graph-PIT: Generalized permutation invariant training for continuous
separation of arbitrary numbers of speakers

Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers

30 July 2021

Thilo von Neumann

Christoph Boeddeker

Reinhold Haeb-Umbach

Papers citing "Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers"

17 / 17 papers shown

Title
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition William Ravenscroft George Close Stefan Goetze Thomas Hain Mohammad Soleymanpour Anurag Chowdhury Mark C. Fuhs 29 0 0 13 Jun 2024
Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios Kashyap Patel A. Kovalyov Issa Panahi 8 0 0 16 Oct 2023
Cascaded encoders for fine-tuning ASR models on overlapped speech R. Rose Oscar Chang Olivier Siohan 11 1 0 28 Jun 2023
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition Desh Raj Daniel Povey Sanjeev Khudanpur VLM 26 9 0 18 Jun 2023
BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR Yuhao Liang Fan Yu Yangze Li Pengcheng Guo Shiliang Zhang Qian Chen Linfu Xie 30 8 0 23 May 2023
Multi-resolution location-based training for multi-channel continuous speech separation H. Taherian DeLiang Wang 30 7 0 16 Jan 2023
On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems Thilo von Neumann Christoph Boeddeker K. Kinoshita Marc Delcroix Reinhold Haeb-Umbach 29 19 0 29 Nov 2022
Utterance-by-utterance overlap-aware neural diarization with Graph-PIT K. Kinoshita Thilo von Neumann Marc Delcroix Christoph Boeddeker Reinhold Haeb-Umbach 38 4 0 28 Jul 2022
A Meeting Transcription System for an Ad-Hoc Acoustic Sensor Network Tobias Gburrek Christoph Boeddeker Thilo von Neumann Tobias Cord-Landwehr Joerg Schmalenstroeer Reinhold Haeb-Umbach 11 5 0 02 May 2022
End-to-end multi-talker audio-visual ASR using an active speaker attention module R. Rose Olivier Siohan 11 3 0 01 Apr 2022
SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation Chenda Li Lei Yang Weiqin Wang Y. Qian 26 24 0 26 Jan 2022
Multi-turn RNN-T for streaming recognition of multi-party speech Ilya Sklyar A. Piunova Xianrui Zheng Yulan Liu 16 22 0 19 Dec 2021
SA-SDR: A novel loss function for separation of meeting style data Thilo von Neumann K. Kinoshita Christoph Boeddeker Marc Delcroix Reinhold Haeb-Umbach 29 20 0 29 Oct 2021
Separating Long-Form Speech with Group-Wise Permutation Invariant Training Wangyou Zhang Zhuo Chen Naoyuki Kanda Shujie Liu Jinyu Li ... Takuya Yoshioka Xiong Xiao Zhong Meng Y. Qian Furu Wei VLM 8 6 0 27 Oct 2021
VarArray: Array-Geometry-Agnostic Continuous Speech Separation Takuya Yoshioka Xiaofei Wang Dongmei Wang M. Tang Zirun Zhu Zhuo Chen Naoyuki Kanda 17 37 0 12 Oct 2021
USEV: Universal Speaker Extraction with Visual Cue Zexu Pan Meng Ge Haizhou Li 34 41 0 30 Sep 2021
Speeding Up Permutation Invariant Training for Source Separation Thilo von Neumann Christoph Boeddeker K. Kinoshita Marc Delcroix Reinhold Haeb-Umbach 16 6 0 30 Jul 2021