Simultaneous Speech Recognition and Speaker Diarization for Monaural
Dialogue Recordings with Target-Speaker Acoustic Models

Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models

17 September 2019

Shota Horiguchi

Kenji Nagamatsu

Shinji Watanabe

ArXiv (abs)PDF HTML

Papers citing "Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models"

15 / 15 papers shown

Title
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 97 1 0 03 Jan 2025
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 217 242 0 13 Sep 2019
End-to-End Neural Speaker Diarization with Permutation-Free Objectives Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe 192 255 0 12 Sep 2019
Auxiliary Interference Speaker Loss for Target-Speaker Speech Recognition Naoyuki Kanda Shota Horiguchi R. Takashima Yusuke Fujita Kenji Nagamatsu Shinji Watanabe 29 34 0 26 Jun 2019
A Comparison of Lattice-free Discriminative Training Criteria for Purely Sequence-Trained Neural Network Acoustic Models Chao Weng Manway Liu 40 5 0 08 Nov 2018
End-to-End Monaural Multi-speaker ASR System without Pretraining Xuankai Chang Y. Qian Yi Liang Deming Chen 65 77 0 05 Nov 2018
Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks Takuya Yoshioka Hakan Erdogan Zhuo Chen Xiong Xiao F. Alleva BDL 55 82 0 08 Oct 2018
A Purely End-to-end System for Multi-speaker Speech Recognition Hiroshi Seki Takaaki Hori Shinji Watanabe Jonathan Le Roux J. Hershey 44 89 0 15 May 2018
Speaker Diarization with LSTM Quan Wang Carlton Downey Li Wan Philip Mansfield Ignacio López Moreno 65 316 0 28 Oct 2017
Generalized End-to-End Loss for Speaker Verification Li Wan Quan Wang Alan Papir Ignacio López Moreno VLM 68 930 0 28 Oct 2017
Progressive Joint Modeling in Unsupervised Single-channel Overlapped Speech Recognition Zhehuai Chen J. Droppo Jinyu Li Wayne Xiong 52 65 0 21 Jul 2017
Recognizing Multi-talker Speech with Permutation Invariant Training Dong Yu Xuankai Chang Y. Qian 54 93 0 22 Mar 2017
Deep attractor network for single-microphone speaker separation Zhuo Chen Yi Luo N. Mesgarani 72 408 0 27 Nov 2016
Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation Dong Yu Morten Kolbæk Zheng-Hua Tan Jesper Jensen 98 858 0 01 Jul 2016
Deep clustering: Discriminative embeddings for segmentation and separation J. Hershey Zhuo Chen Jonathan Le Roux Shinji Watanabe 62 1,317 0 18 Aug 2015