A Review of Speaker Diarization: Recent Advances with Deep Learning

24 January 2021

Tae Jin Park

Naoyuki Kanda

Dimitrios Dimitriadis

Shrikanth Narayanan

Papers citing "A Review of Speaker Diarization: Recent Advances with Deep Learning"

44 / 44 papers shown

Title
Speaker Retrieval in the Wild: Challenges, Effectiveness and Robustness Erfan Loweimi Mengjie Qian Kate Knill Mark J. F. Gales 46 0 0 26 Apr 2025
Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning Abdulhady Abas Abdullah S. H. Karim Sara Azad Ahmed Kanar R. Tariq Tarik Ahmed Rashid 150 0 0 23 Apr 2025
Pavlok-Nudge: A Feedback Mechanism for Atomic Behaviour Modification with Snoring Usecase Md Golam Moula Mehedi Hasan Rakibul Hasan Pradyumna Agrawal Zhixi Cai Susannah Soon Tom Gedeon 85 0 0 17 Feb 2025
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 35 5 0 17 Jan 2025
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 37 4 0 21 Jul 2024
Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency Roman Aperdannier Sigurd Schacht Alexander Piazza 44 0 0 05 Jul 2024
LLM-based speaker diarization correction: A generalizable approach Georgios Efstathiadis Vijay Yadav Anzar Abbas 45 3 0 07 Jun 2024
ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings Théo Mariotte Anthony Larcher Silvio Montrésor Jean-Hugh Thomas 29 0 0 05 Jun 2024
Uncertainty Quantification in Machine Learning for Joint Speaker Diarization and Identification Simon W. McKnight Aidan O. T. Hogg Vincent W. Neo Patrick A. Naylor 11 1 0 28 Dec 2023
End-to-end Online Speaker Diarization with Target Speaker Tracking Weiqing Wang Ming Li 31 5 0 12 Oct 2023
Implicit spoken language diarization Jagabandhu Mishra Amartya Roy Chowdhury S. M. I. S. R. Mahadeva Prasanna 20 0 0 22 Jun 2023
Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction Rohit Paturi S. Srinivasan Xiang Li 18 13 0 15 Jun 2023
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings L. Serafini Samuele Cornell Giovanni Morrone Enrico Zovato A. Brutti S. Squartini 39 9 0 29 May 2023
Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator Lingwei Meng Jiawen Kang Mingyu Cui Haibin Wu Xixin Wu Helen M. Meng 33 10 0 25 May 2023
Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization Luyao Cheng Siqi Zheng Zhang Qinglin Haibo Wang Yafeng Chen Qian Chen 35 4 0 22 May 2023
Neural Diarization with Non-autoregressive Intermediate Attractors Yusuke Fujita Tatsuya Komatsu Robin Scheibler Yusuke Kida Tetsuji Ogawa 35 11 0 13 Mar 2023
Towards Measuring and Scoring Speaker Diarization Fairness Yannis Tevissen Jérôme Boudy Gérard Chollet Frédéric Petitpont 15 2 0 20 Feb 2023
The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge 2022 System Description Yannis Tevissen Jérôme Boudy Frédéric Petitpont 28 1 0 17 Jan 2023
High-resolution embedding extractor for speaker diarisation Hee-Soo Heo Youngki Kwon Bong-Jin Lee You Jin Kim Jee-weon Jung 24 5 0 08 Nov 2022
DiaCorrect: End-to-end error correction for speaker diarization Jiangyu Han Yuhang Cao Heng Lu Yanhua Long 39 0 0 31 Oct 2022
Target-Speaker Voice Activity Detection via Sequence-to-Sequence Prediction Ming Cheng Weiqing Wang Yucong Zhang Xiaoyi Qin Ming Li VLM 54 32 0 28 Oct 2022
Privacy-preserving Automatic Speaker Diarization Francisco Teixeira A. Abad Bhiksha Raj Isabel Trancoso 27 4 0 26 Oct 2022
In search of strong embedding extractors for speaker diarisation Jee-weon Jung Hee-Soo Heo Bong-Jin Lee Jaesung Huh A. Brown Youngki Kwon Shinji Watanabe Joon Son Chung 44 16 0 26 Oct 2022
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering Quan Wang Yiling Huang Han Lu Guanlong Zhao Ignacio López Moreno 19 11 0 25 Oct 2022
Robust Acoustic Domain Identification with its Application to Speaker Diarization Kishore Kumar A Shefali Waldekar Md. Sahidullah G. Saha 24 0 0 05 Aug 2022
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yuki Takashima Y. Kawaguchi 39 23 0 06 Jun 2022
EEND-SS: Joint End-to-End Neural Speaker Diarization and Speech Separation for Flexible Number of Speakers Soumi Maiti Yushi Ueda Shinji Watanabe Chunlei Zhang Meng Yu Shi-Xiong Zhang Yong-mei Xu 34 32 0 31 Mar 2022
Language vs Speaker Change: A Comparative Study Jagabandhu Mishra S. M. I. S. R. Mahadeva Prasanna 13 0 0 05 Mar 2022
Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge Jingguang Tian Xinhui Hu Xinkang Xu 16 9 0 10 Feb 2022
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge Fan Yu Shiliang Zhang Pengcheng Guo Yihui Fu Zhihao Du ... Kong Aik Lee Zhijie Yan B. Ma Xin Xu Hui Bu 18 28 0 08 Feb 2022
End-to-end speaker diarization with transformer Yongquan Lai Xin Tang Yuanyuan Fu Rui Fang 29 1 0 14 Dec 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 86 1,700 0 26 Oct 2021
M2MeT: The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge Fan Yu Shiliang Zhang Yihui Fu Lei Xie Siqi Zheng ... Pengcheng Guo Zhijie Yan B. Ma Xin Xu Hui Bu 8 104 0 14 Oct 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 229 1,019 0 13 Oct 2021
Multi-Channel End-to-End Neural Diarization with Distributed Microphones Shota Horiguchi Yuki Takashima Leibny Paola García-Perera Shinji Watanabe Y. Kawaguchi 26 17 0 10 Oct 2021
Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn Detection Wei Xia Han Lu Quan Wang Anshuman Tripathi Yiling Huang Ignacio López Moreno Hasim Sak 41 51 0 23 Sep 2021
Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition Amrutha Prasad Juan Pablo Zuluaga P. Motlícek Seyyed Saeed Sarfjoo Iuliia Nigmatulina Oliver Ohneiser H. Helmke 27 6 0 27 Aug 2021
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio Naoyuki Kanda Xiong Xiao Jian Wu Tianyan Zhou Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Takuya Yoshioka 19 14 0 06 Jul 2021
Encoder-Decoder Based Attractors for End-to-End Neural Diarization Shota Horiguchi Yusuke Fujita Shinji Watanabe Yawen Xue Leibny Paola García-Perera 34 64 0 20 Jun 2021
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 216 199 0 29 Dec 2020
Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system K. Kinoshita Marc Delcroix S. Araki Tomohiro Nakatani 189 30 0 09 Mar 2020
Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized Maximum Eigengap Tae Jin Park Kyu Jeong Han Manoj Kumar Shrikanth Narayanan 128 116 0 05 Mar 2020
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 187 237 0 13 Sep 2019
End-to-End Neural Speaker Diarization with Permutation-Free Objectives Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe 158 244 0 12 Sep 2019