Title
Target Speaker ASR with Whisper Alexander Polok Dominik Klement Matthew Wiesner Sanjeev Khudanpur J. Černocký L. Burget 107 2 0 17 Jan 2025
Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization Thilo von Neumann Christoph Boeddeker Tobias Cord-Landwehr Marc Delcroix Reinhold Haeb-Umbach 23 7 0 28 Sep 2023
VE-KWS: Visual Modality Enhanced End-to-End Keyword Spotting Aoting Zhang He Wang Pengcheng Guo Yihui Fu Linfu Xie Yingying Gao Shilei Zhang Junlan Feng 18 4 0 27 Feb 2023
Speech separation with large-scale self-supervised learning Zhuo Chen Naoyuki Kanda Jian Wu Yu-Huan Wu Xiaofei Wang Takuya Yoshioka Jinyu Li S. Sivasankaran Sefik Emre Eskimez 19 14 0 09 Nov 2022
SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation Chenda Li Lei Yang Weiqin Wang Y. Qian 32 25 0 26 Jan 2022
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 35 363 0 02 Nov 2021
Continuous Speech Separation with Recurrent Selective Attention Network Yixuan Zhang Zhuo Chen Jian Wu Takuya Yoshioka Peidong Wang Zhong Meng Jinyu Li BDL 27 7 0 28 Oct 2021
All-neural beamformer for continuous speech separation Zhuohuang Zhang Takuya Yoshioka Naoyuki Kanda Zhuo Chen Xiaofei Wang Dongmei Wang Sefik Emre Eskimez 33 15 0 13 Oct 2021
VarArray: Array-Geometry-Agnostic Continuous Speech Separation Takuya Yoshioka Xiaofei Wang Dongmei Wang M. Tang Zirun Zhu Zhuo Chen Naoyuki Kanda 17 37 0 12 Oct 2021
Location-based training for multi-channel talker-independent speaker separation H. Taherian Ke Tan DeLiang Wang 27 10 0 08 Oct 2021
Joint speaker diarisation and tracking in switching state-space model J. H. M. Wong Yifan Gong 30 0 0 23 Sep 2021
Diarisation using location tracking with agglomerative clustering J. H. M. Wong Igor Abramovski Xiong Xiao Yifan Gong 29 1 0 22 Sep 2021
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio Naoyuki Kanda Xiong Xiao Jian Wu Tianyan Zhou Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Takuya Yoshioka 19 14 0 06 Jul 2021
Deep Learning based Multi-Source Localization with Source Splitting and its Effectiveness in Multi-Talker Speech Recognition Aswin Shanmugam Subramanian Chao Weng Shinji Watanabe Meng Yu Dong Yu 34 78 0 16 Feb 2021
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 274 327 0 24 Jan 2021
Microsoft Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2020 Xiong Xiao Naoyuki Kanda Zhuo Chen Tianyan Zhou Takuya Yoshioka ... Yu-Huan Wu Jian Wu Shujie Liu Jinyu Li Jiawei Liu 27 62 0 22 Oct 2020
An End-to-end Architecture of Online Multi-channel Speech Separation Jian Wu Zhuo Chen Jinyu Li Takuya Yoshioka Zhili Tan Ed Lin Yi Luo Lei Xie 3DV 19 21 0 07 Sep 2020
Separating Varying Numbers of Sources with Auxiliary Autoencoding Loss Yi Luo N. Mesgarani 21 29 0 27 Mar 2020
Continuous speech separation: dataset and analysis Zhuo Chen Takuya Yoshioka Liang Lu Tianyan Zhou Zhong Meng Yi Luo Jian Wu Xiong Xiao Jinyu Li 16 211 0 30 Jan 2020
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 266 2,238 0 14 Jun 2018