Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism

7 February 2021

Jon Barker

Papers citing "Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism"

24 / 24 papers shown

Title
On End-to-end Multi-channel Time Domain Speech Separation in Reverberant Environments Jisi Zhang Catalin Zorila R. Doddipatla Jon Barker 55 46 0 11 Nov 2020
Sudo rm -rf: Efficient Networks for Universal Audio Source Separation Efthymios Tzinis Zhepei Wang Paris Smaragdis 61 128 0 14 Jul 2020
Speaker-Conditional Chain Model for Speech Separation and Extraction Jing Shi Jiaming Xu Yusuke Fujita Shinji Watanabe Bo Xu BDL 51 20 0 25 Jun 2020
SpEx+: A Complete Time Domain Speaker Extraction Network Meng Ge Chenglin Xu Longbiao Wang Chng Eng Siong Jianwu Dang Haizhou Li 34 145 0 10 May 2020
Enhancing End-to-End Multi-channel Speech Separation via Spatial Feature Learning Rongzhi Gu Shi-Xiong Zhang Lianwu Chen Yong-mei Xu Meng Yu Dan Su Yuexian Zou Dong Yu 39 60 0 09 Mar 2020
Voice Separation with an Unknown Number of Multiple Speakers Eliya Nachmani Yossi Adi Lior Wolf 44 175 0 29 Feb 2020
Wavesplit: End-to-End Speech Separation by Speaker Clustering Neil Zeghidour David Grangier VLM 63 263 0 20 Feb 2020
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam Marc Delcroix Tsubasa Ochiai Kateřina Žmolíková K. Kinoshita Naohiro Tawara Tomohiro Nakatani S. Araki 95 123 0 23 Jan 2020
Interrupted and cascaded permutation invariant training for speech separation Gene-Ping Yang Szu-Lin Wu Yao-Wen Mao Hung-yi Lee Lin-Shan Lee 22 14 0 28 Oct 2019
WHAMR!: Noisy and Reverberant Single-Channel Speech Separation Matthew Maciejewski Gordon Wichern E. McQuinn Jonathan Le Roux 29 182 0 22 Oct 2019
Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation Yi Luo Zhuo Chen Takuya Yoshioka AI4TS 57 767 0 14 Oct 2019
WHAM!: Extending Speech Separation to Noisy Environments Gordon Wichern J. Antognini Michael Flynn Licheng Richard Zhu E. McQuinn Dwight Crow Ethan Manilow Jonathan Le Roux 53 343 0 02 Jul 2019
SDR - half-baked or well done? F. Sánchez-Martínez M. Esplà-Gomis Hakan Erdogan J. Hershey 111 1,180 0 06 Nov 2018
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking Quan Wang Hannah Muckenhirn K. Wilson Prashant Sridhar Zelin Wu J. Hershey Rif A. Saurous Ron J. Weiss Ye Jia Ignacio López Moreno 31 369 0 11 Oct 2018
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation Yi Luo N. Mesgarani 116 1,772 0 20 Sep 2018
Speaker Recognition from Raw Waveform with SincNet Mirco Ravanelli Yoshua Bengio 73 706 0 29 Jul 2018
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 337 2,261 0 14 Jun 2018
Pyroomacoustics: A Python package for audio room simulations and array processing algorithms Robin Scheibler Eric Bezzam Ivan Dokmanić 35 513 0 11 Oct 2017
Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks Morten Kolbaek Dong Yu Zheng-Hua Tan Jesper Jensen 42 725 0 18 Mar 2017
Temporal Convolutional Networks: A Unified Approach to Action Segmentation Colin S. Lea René Vidal A. Reiter Gregory Hager 54 747 0 29 Aug 2016
Instance Normalization: The Missing Ingredient for Fast Stylization Dmitry Ulyanov Andrea Vedaldi Victor Lempitsky OOD 111 3,689 0 27 Jul 2016
Deep clustering: Discriminative embeddings for segmentation and separation J. Hershey Zhuo Chen Jonathan Le Roux Shinji Watanabe 35 1,316 0 18 Aug 2015
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 875 76,547 0 18 May 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 453 149,474 0 22 Dec 2014