Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors

6 June 2022

Shota Horiguchi

Shinji Watanabe

Leibny Paola García-Perera

Yuki Takashima

Yohei Kawaguchi

ArXiv PDF HTML

Papers citing "Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors"

50 / 53 papers shown

Title
Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization Dongmei Wang Xiong Xiao Naoyuki Kanda Takuya Yoshioka Jian Wu 56 26 0 27 Aug 2022
Multi-scale Speaker Diarization with Dynamic Scale Weighting Tae Jin Park Nithin Rao Koluguri Jagadeesh Balam Boris Ginsburg 65 19 0 30 Mar 2022
Tight integration of neural- and clustering-based diarization through deep unfolding of infinite Gaussian mixture model K. Kinoshita Marc Delcroix Tomoharu Iwata BDL 49 19 0 14 Feb 2022
Low-Latency Online Speaker Diarization with Graph-Based Label Generation Yucong Zhang Qinjian Lin Weiqing Wang Lin Yang Xuyang Wang Junjie Wang Ming Li 36 10 0 27 Nov 2021
Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn Detection Wei Xia Han Lu Quan Wang Anshuman Tripathi Yiling Huang Ignacio López Moreno Hasim Sak 63 51 0 23 Sep 2021
Self-Supervised Metric Learning With Graph Clustering For Speaker Diarization Prachi Singh Sriram Ganapathy SSL 47 7 0 14 Sep 2021
Overlap-aware low-latency online speaker diarization based on end-to-end local segmentation Juan Manuel Coria H. Bredin Sahar Ghannay Sophie Rosset 67 30 0 14 Sep 2021
Towards Neural Diarization for Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yawen Xue Yuki Takashima Yohei Kawaguchi 59 38 0 04 Jul 2021
Encoder-Decoder Based Attractors for End-to-End Neural Diarization Shota Horiguchi Yusuke Fujita Shinji Watanabe Yawen Xue Leibny Paola García-Perera 60 66 0 20 Jun 2021
End-to-end Neural Diarization: From Transformer to Conformer Yi Y. Liu Eunjung Han Chul Lee A. Stolcke 99 40 0 14 Jun 2021
Semi-Supervised Training with Pseudo-Labeling for End-to-End Neural Diarization Yuki Takashima Yusuke Fujita Shota Horiguchi Shinji Watanabe Paola García Kenji Nagamatsu 71 14 0 09 Jun 2021
End-to-End Speaker Diarization Conditioned on Speech Activity and Overlap Detection Yuki Takashima Yusuke Fujita Shinji Watanabe Shota Horiguchi Leibny Paola García-Perera Kenji Nagamatsu 30 26 0 08 Jun 2021
DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding Neil Zeghidour O. Teboul David Grangier 34 13 0 28 May 2021
Advances in integration of end-to-end neural and clustering-based diarization for real conversational speech K. Kinoshita Marc Delcroix Naohiro Tawara 91 60 0 19 May 2021
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings Soumi Maiti Hakan Erdogan K. Wilson Scott Wisdom Shinji Watanabe J. Hershey 49 22 0 05 May 2021
End-to-end speaker segmentation for overlap-aware resegmentation H. Bredin Antoine Laurent VLM 314 168 0 08 Apr 2021
Three-class Overlapped Speech Detection using a Convolutional Recurrent Neural Network Jee-weon Jung Hee-Soo Heo Youngki Kwon Joon Son Chung Bong-Jin Lee 103 19 0 07 Apr 2021
The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural Diarization and X-Vector Clustering Systems Combined by DOVER-Lap Shota Horiguchi Nelson Yalta Leibny Paola García-Perera Yuki Takashima Yawen Xue Desh Raj Zili Huang Yusuke Fujita Shinji Watanabe Sanjeev Khudanpur BDL 39 37 0 02 Feb 2021
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 297 331 0 24 Jan 2021
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 241 206 0 29 Dec 2020
End-to-End Speaker Diarization as Post-Processing Shota Horiguchi Leibny Paola García-Perera Yusuke Fujita Shinji Watanabe Kenji Nagamatsu 63 42 0 18 Dec 2020
BW-EDA-EEND: Streaming End-to-End Neural Speaker Diarization for a Variable Number of Speakers Eunjung Han Chul Lee A. Stolcke 95 42 0 05 Nov 2020
Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds K. Kinoshita Marc Delcroix Naohiro Tawara 40 81 0 26 Oct 2020
Microsoft Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2020 Xiong Xiao Naoyuki Kanda Zhuo Chen Tianyan Zhou Takuya Yoshioka ... Yu-Huan Wu Jian Wu Shujie Liu Jinyu Li Jiawei Liu 51 63 0 22 Oct 2020
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition Quan Wang Ignacio López Moreno Mert Saglam K. Wilson Alan Chiao ... Yanzhang He Wei Li Jason W. Pelecanos M. Nika A. Gruenstein VLM 56 85 0 09 Sep 2020
Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals Jing Shi Xuankai Chang Pengcheng Guo Shinji Watanabe Yusuke Fujita Jiaming Xu Bo Xu Lei Xie 56 21 0 25 Jun 2020
Online End-to-End Neural Diarization with Speaker-Tracing Buffer Yawen Xue Shota Horiguchi Yusuke Fujita Shinji Watanabe Kenji Nagamatsu 22 45 0 04 Jun 2020
Neural Speaker Diarization with Speaker-Wise Chain Rule Yusuke Fujita Shinji Watanabe Shota Horiguchi Yawen Xue Jing Shi Kenji Nagamatsu 56 45 0 02 Jun 2020
End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based Attractors Shota Horiguchi Yusuke Fujita Shinji Watanabe Yawen Xue Kenji Nagamatsu 116 189 0 20 May 2020
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario Ivan Medennikov M. Korenevsky Tatiana Prisyach Yuri Y. Khokhlov Mariya Korenevskaya ... Anton Mitrofanov A. Andrusenko Ivan Podluzhny A. Laptev A. Romanenko 34 199 0 14 May 2020
CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings Shinji Watanabe Michael I. Mandel Jon Barker Emmanuel Vincent Ashish Arora ... Emmanuel Vincent Shota Horiguchi Naoyuki Kanda Takuya Yoshioka Neville Ryant 46 304 0 20 Apr 2020
Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system K. Kinoshita Marc Delcroix S. Araki Tomohiro Nakatani 225 30 0 09 Mar 2020
Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized Maximum Eigengap Tae Jin Park Kyu Jeong Han Manoj Kumar Shrikanth Narayanan 149 117 0 05 Mar 2020
Wavesplit: End-to-End Speech Separation by Speaker Clustering Neil Zeghidour David Grangier VLM 80 263 0 20 Feb 2020
Supervised online diarization with sample mean loss for multi-domain data Enrico Fini Alessio Brutti 31 24 0 04 Nov 2019
Overlap-aware diarization: resegmentation using neural end-to-end overlapped speech detection Latané Bullock H. Bredin Leibny Paola García-Perera 57 96 0 25 Oct 2019
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 215 239 0 13 Sep 2019
End-to-End Neural Speaker Diarization with Permutation-Free Objectives Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe 188 251 0 12 Sep 2019
Personal VAD: Speaker-Conditioned Voice Activity Detection Shaojin Ding Quan Wang Shuo-yiin Chang Li Wan Ignacio López Moreno 37 75 0 12 Aug 2019
The Second DIHARD Diarization Challenge: Dataset, task, and baselines Neville Ryant Kenneth Church C. Cieri Alejandrina Cristià Jun Du Sriram Ganapathy M. Liberman 44 181 0 18 Jun 2019
Recursive speech separation for unknown number of speakers Naoya Takahashi Sudarsanam Parthasaarathy Nabarun Goswami Yuki Mitsufuji 37 81 0 05 Apr 2019
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Zihang Dai Zhilin Yang Yiming Yang J. Carbonell Quoc V. Le Ruslan Salakhutdinov VLM 210 3,724 0 09 Jan 2019
Audiovisual speaker diarization of TV series Xavier Bost G. Linarès Serigne Gueye 26 19 0 18 Dec 2018
Fully Supervised Speaker Diarization Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong-Jun Wang BDL 51 218 0 10 Oct 2018
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines Jon Barker Shinji Watanabe Emmanuel Vincent J. Trmal 53 681 0 28 Mar 2018
Recurrent Pixel Embedding for Instance Grouping Shu Kong Charless C. Fowlkes 103 180 0 22 Dec 2017
Speaker Diarization with LSTM Quan Wang Carlton Downey Li Wan Philip Mansfield Ignacio López Moreno 50 316 0 28 Oct 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 658 131,414 0 12 Jun 2017
Semantic Instance Segmentation via Deep Metric Learning Alireza Fathi Z. Wojna V. Rathod Peng Wang Hyun Oh Song S. Guadarrama Kevin Patrick Murphy SSeg 48 203 0 30 Mar 2017
Deep attractor network for single-microphone speaker separation Zhuo Chen Yi Luo N. Mesgarani 67 408 0 27 Nov 2016