MossFormer2: Combining Transformer and RNN-Free Recurrent Network for
Enhanced Time-Domain Monaural Speech Separation

MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation

19 December 2023

Trung Hieu Nguyen

Papers citing "MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation"

17 / 17 papers shown

Title
Listen to Extract: Onset-Prompted Target Speaker Extraction Pengjie Shen Kangrui Chen Shulin He Pengru Chen Shuqi Yuan He Kong Xueliang Zhang Zehao Wang 53 0 0 08 May 2025
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation Zhaoxi Mu Xinyu Yang Gang Wang AuLLM KELM VLM 60 0 0 06 May 2025
A Comparative Study on Positional Encoding for Time-frequency Domain Dual-path Transformer-based Source Separation Models Kohei Saijo Tetsuji Ogawa 52 1 0 28 Apr 2025
LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement Boyi Kang Xinfa Zhu Zihan Zhang Zhen Ye Mingshuai Liu ... Jun Chen Longshuai Xiao Chao Weng Wei Xue Lei Xie AuLLM 55 3 0 01 Mar 2025
SepMamba: State-space models for speaker separation using Mamba Thor Højhus Avenstrup Boldizsár Elek István László Mádi András Bence Schin Morten Mørup Bjørn Sand Jensen Kenny Falkær Olsen Mamba 33 0 0 28 Oct 2024
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios Kai Li Wendi Sang Chang Zeng Runxuan Yang Guo Chen Xiaolin Hu 34 2 0 02 Oct 2024
Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better Mengying Ge Mingyang Li Dongkai Tang Pengbo Li Kuo Liu Shuhao Deng Songbai Pu L. Liu Yang Song Tao Zhang 33 0 0 12 Sep 2024
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction Bang Zeng Ming Li 37 2 0 04 Sep 2024
LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization Zengrui Jin Yifan Yang Mohan Shi Wei Kang Xiaoyu Yang ... Lingwei Meng Long Lin Yong Xu Shi-Xiong Zhang Daniel Povey 28 2 0 01 Sep 2024
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement Kohei Saijo G. Wichern François G. Germain Zexu Pan Jonathan Le Roux 46 7 0 06 Aug 2024
Towards Audio Codec-based Speech Separation J. Yip Shengkui Zhao Dianwen Ng Eng Siong Chng Bin Ma 38 6 0 18 Jun 2024
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning Brandon Colelough Andrew Zheng 26 1 0 30 May 2024
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection Ali Behrouz Michele Santacatterina Ramin Zabih 50 31 0 29 Mar 2024
Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation Xilin Jiang Cong Han N. Mesgarani Mamba 42 42 0 27 Mar 2024
TF-GridNet: Making Time-Frequency Domain Models Great Again for Monaural Speaker Separation Zhong-Qiu Wang Samuele Cornell Shukjae Choi Younglo Lee Byeonghak Kim Shinji Watanabe 74 97 0 08 Sep 2022
Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation Jing-jing Chen Qi-rong Mao Dong Liu 62 280 0 28 Jul 2020
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 315 36,381 0 25 Aug 2016