Flow-TSVAD: Target-Speaker Voice Activity Detection via Latent Flow
Matching

v1v2 (latest)

Flow-TSVAD: Target-Speaker Voice Activity Detection via Latent Flow Matching

7 September 2024

Zhengyang Chen

Shuai Wang

Yanmin Qian

ArXiv (abs)PDF HTML

Papers citing "Flow-TSVAD: Target-Speaker Voice Activity Detection via Latent Flow Matching"

13 / 13 papers shown

Title
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 93 6 0 17 Jan 2025
Attention-based Encoder-Decoder End-to-End Neural Diarization with Embedding Enhancer Zhengyang Chen Bing Han Shuai Wang Yan-min Qian 62 18 0 13 Sep 2023
DiffusionDet: Diffusion Model for Object Detection Shoufa Chen Pei Sun Yibing Song Ping Luo 126 466 0 17 Nov 2022
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yuki Takashima Yohei Kawaguchi 98 24 0 06 Jun 2022
From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization Federico Landini Alicia Lozano-Diez Mireia Díez Lukávs Burget 48 37 0 02 Apr 2022
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 266 209 0 29 Dec 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 229 3,160 0 16 May 2020
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario Ivan Medennikov M. Korenevsky Tatiana Prisyach Yuri Y. Khokhlov Mariya Korenevskaya ... Anton Mitrofanov A. Andrusenko Ivan Podluzhny A. Laptev A. Romanenko 54 205 0 14 May 2020
BUT System Description to VoxCeleb Speaker Recognition Challenge 2019 Hossein Zeinali Shuai Wang Anna Silnova P. Matejka Oldrich Plchot DRL 80 248 0 16 Oct 2019
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 226 243 0 13 Sep 2019
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 356 2,287 0 14 Jun 2018
Speaker Diarization with LSTM Quan Wang Carlton Downey Li Wan Philip Mansfield Ignacio López Moreno 103 319 0 28 Oct 2017
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization Xun Huang Serge J. Belongie OOD 186 4,378 0 20 Mar 2017