Attention is All You Need in Speech Separation

25 October 2020

Mirco Ravanelli

Papers citing "Attention is All You Need in Speech Separation"

50 / 219 papers shown

Title
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement Kohei Saijo G. Wichern François G. Germain Zexu Pan Jonathan Le Roux 35 7 0 06 Aug 2024
RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues Tianrui Pan Jie Liu Bohan Wang Jie Tang Gangshan Wu 40 2 0 27 Jul 2024
Robustness of Speech Separation Models for Similar-pitch Speakers Bunlong Lay Sebastian Zaczek Kristina Tesch Timo Gerkmann 19 0 0 22 Jul 2024
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors J. Hauret Malo Olivier Thomas Joubaud C. Langrenne Sarah Poirée V. Zimpfer Éric Bavu 75 1 0 16 Jul 2024
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis Xilin Jiang Yinghao Aaron Li Adrian Nicolas Florea Cong Han N. Mesgarani Mamba 46 9 0 13 Jul 2024
Improving Speech Enhancement by Integrating Inter-Channel and Band Features with Dual-branch Conformer Jizhen Li Xinmeng Xu Weiping Tu Yuhong Yang Rong Zhu 29 1 0 09 Jul 2024
All Neural Low-latency Directional Speech Extraction Ashutosh Pandey Sanha Lee Juan Azcarreta Daniel D. E. Wong Buye Xu 30 2 0 05 Jul 2024
Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model Yu-Kuan Fu Cheng-Kuang Lee Hsiu-Hsuan Wang Hung-yi Lee 22 0 0 02 Jul 2024
Papez: Resource-Efficient Speech Separation with Auditory Working Memory Hyunseok Oh Juheon Yi Youngki Lee 19 2 0 01 Jul 2024
SNR-Progressive Model with Harmonic Compensation for Low-SNR Speech Enhancement Zhongshu Hou Tong Lei Qinwen Hu Zhanzhong Cao Ming Tang Jing Lu 32 0 0 24 Jun 2024
Towards Audio Codec-based Speech Separation J. Yip Shengkui Zhao Dianwen Ng Eng Siong Chng Bin Ma 32 6 0 18 Jun 2024
Just Because We Camp, Doesn't Mean We Should: The Ethics of Modelling Queer Voices A. Sigurgeirsson Eddie L. Ungless 33 2 0 11 Jun 2024
Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement Wangyou Zhang Kohei Saijo Jee-weon Jung Chenda Li Shinji Watanabe Yanmin Qian 32 4 0 06 Jun 2024
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture Ohad Cohen G. Hazan Sharon Gannot 34 1 0 05 Jun 2024
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning Brandon Colelough Andrew Zheng 24 1 0 30 May 2024
A Near-Real-Time Processing Ego Speech Filtering Pipeline Designed for Speech Interruption During Human-Robot Interaction Yue Li Florian A. Kunneman Koen V. Hindriks 29 2 0 22 May 2024
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention Ruijie Tao Xinyuan Qian Yidi Jiang Junjie Li Jiadong Wang Haizhou Li 34 1 0 29 Apr 2024
Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction Zhaoxi Mu Xinyu Yang 37 5 0 19 Apr 2024
State Space Model for New-Generation Network Alternative to Transformers: A Survey Tianlin Li Shiao Wang Yuhe Ding Yuehang Li Wentao Wu ... Bowei Jiang Chenglong Li Yaowei Wang Yonghong Tian Jin Tang Mamba 33 49 0 15 Apr 2024
Cross-Domain Audio Deepfake Detection: Dataset and Analysis Yuang Li Min Zhang Mengxin Ren Miaomiao Ma Daimeng Wei Hao Yang 35 3 0 07 Apr 2024
SPMamba: State-space model is all you need in speech separation Kai Li Guo Chen Mamba 50 0 0 02 Apr 2024
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection Ali Behrouz Michele Santacatterina Ramin Zabih 44 31 0 29 Mar 2024
Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation Xilin Jiang Cong Han N. Mesgarani Mamba 36 41 0 27 Mar 2024
AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior Zhouhong Gu Xiaoxuan Zhu Haoran Guo Lin Zhang Yin Cai ... Yifei Dai Yan Gao Yao Hu Hongwei Feng Yanghua Xiao AI4CE 44 1 0 20 Mar 2024
ConSep: a Noise- and Reverberation-Robust Speech Separation Framework by Magnitude Conditioning Kuan-Hsun Ho J. Hung Berlin Chen 39 0 0 04 Mar 2024
REWIND Dataset: Privacy-preserving Speaking Status Segmentation from Multimodal Body Movement Signals in the Wild Jose Vargas-Quiros Chirag Raman Stephanie Tan Ekin Gedik Laura Cabrera-Quiros Hayley Hung 26 3 0 02 Mar 2024
Listening Between the Lines: Synthetic Speech Detection Disregarding Verbal Content Davide Salvi Temesgen Semu Balcha Paolo Bestagini Stefano Tubaro 44 6 0 08 Feb 2024
Sound Source Separation Using Latent Variational Block-Wise Disentanglement Karim Helwani M. Togami Paris Smaragdis Michael M. Goodwin BDL DRL 23 1 0 08 Feb 2024
Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience Xilin Jiang Cong Han Yinghao Aaron Li N. Mesgarani KELM 26 4 0 06 Feb 2024
Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege Peng Huang Yao Wei Peng Cheng Zhongjie Ba Liwang Lu Feng Lin Yang Wang Kui Ren 24 0 0 28 Jan 2024
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion Samuel Pegg Kai Li Xiaolin Hu 32 1 0 25 Jan 2024
Boosting Unknown-number Speaker Separation with Transformer Decoder-based Attractor Younglo Lee Shukjae Choi Byeonghak Kim Zhong-Qiu Wang Shinji Watanabe MoE 8 9 0 23 Jan 2024
Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments Renana Opochinsky Mordehay Moradi Sharon Gannot 13 4 0 07 Jan 2024
MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou J. Yip Dianwen Ng Bin Ma 13 21 0 19 Dec 2023
Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction Zhaoxi Mu Xinyu Yang Sining Sun Qing Yang SSL 20 8 0 16 Dec 2023
Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech Separation Chenyu Gao Yue Gu I. Marsic 21 0 0 20 Nov 2023
Contrastive Multi-Level Graph Neural Networks for Session-based Recommendation F. Wang Xingyu Gao Zhenyu Chen Lei Lyu 21 12 0 06 Nov 2023
TACNET: Temporal Audio Source Counting Network Amirreza Ahmadnejad Ahmad Mahmmodian Darviishani Mohmmad Mehrdad Asadi Sajjad Saffariyeh Pedram Yousef Emad Fatemizadeh 32 2 0 04 Nov 2023
Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables Bandhav Veluri Malek Itani Justin Chan Takuya Yoshioka Shyamnath Gollakota 23 15 0 01 Nov 2023
DPATD: Dual-Phase Audio Transformer for Denoising Junhui Li Pu Wang Jialu Li Xinzhe Wang Youshan Zhang 18 4 0 30 Oct 2023
Deep Audio Analyzer: a Framework to Industrialize the Research on Audio Forensics Valerio Francesco Puglisi O. Giudice Sebastiano Battiato 22 1 0 29 Oct 2023
Generative Pre-training for Speech with Flow Matching Alexander H. Liu Matt Le Apoorv Vyas Bowen Shi Andros Tjandra Wei-Ning Hsu 21 31 0 25 Oct 2023
A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction Kohei Saijo Wangyou Zhang Zhong-Qiu Wang Shinji Watanabe Tetsunori Kobayashi Tetsuji Ogawa VLM 22 6 0 12 Oct 2023
On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments William Ravenscroft Stefan Goetze Thomas Hain 28 7 0 09 Oct 2023
YFlows: Systematic Dataflow Exploration and Code Generation for Efficient Neural Network Inference using SIMD Architectures on CPUs Cyrus Zhou Zack Hassman Ruize Xu Dhirpal Shah Vaughn Richard Yanjing Li 32 1 0 01 Oct 2023
Unravel Anomalies: An End-to-end Seasonal-Trend Decomposition Approach for Time Series Anomaly Detection Zhenwei Zhang Ruiqi Wang Ran Ding Yuantao Gu 11 3 0 30 Sep 2023
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation Samuel Pegg Kai Li Xiaolin Hu 24 4 0 29 Sep 2023
Does Single-channel Speech Enhancement Improve Keyword Spotting Accuracy? A Case Study Avamarie Brueggeman Takuya Higuchi Masood Delfarah Stephen Shum Vineet Garg 19 0 0 27 Sep 2023
A Multiscale Autoencoder (MSAE) Framework for End-to-End Neural Network Speech Enhancement Bengt J. Borgström M. Brandstein 16 2 0 21 Sep 2023
Directional Source Separation for Robust Speech Recognition on Smart Glasses Tiantian Feng Ju Lin Yiteng Huang Weipeng He Kaustubh Kalgaonkar Niko Moritz Liting Wan Xin Lei Ming Sun Frank Seide 13 4 0 20 Sep 2023