SDR - half-baked or well done?

6 November 2018

Papers citing "SDR - half-baked or well done?"

50 / 614 papers shown

Title
Improving Speech Enhancement by Integrating Inter-Channel and Band Features with Dual-branch Conformer Jizhen Li Xinmeng Xu Weiping Tu Yuhong Yang Rong Zhu 32 1 0 09 Jul 2024
Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation J. Lee Jaehyun Park Min Jun Choi Kyogu Lee 42 2 0 07 Jul 2024
A Reference-free Metric for Language-Queried Audio Source Separation using Contrastive Language-Audio Pretraining Feiyang Xiao Jian Guan Qiaoxi Zhu Xubo Liu Wenbo Wang Shuhan Qi Kejia Zhang Jianyuan Sun Wenwu Wang 30 4 0 06 Jul 2024
Resource-Efficient Speech Quality Prediction through Quantization Aware Training and Binary Activation Maps Mattias Nilsson Riccardo Miccini Clément Laroche Tobias Piechowiak Friedemann Zenke MQ 34 0 0 05 Jul 2024
Unsupervised speech enhancement with spectral kurtosis and double deep priors Hien Ohnaka Ryoichi Miyazaki 29 0 0 04 Jul 2024
Semantic Grouping Network for Audio Source Separation Shentong Mo Yapeng Tian 36 4 0 04 Jul 2024
RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization Bing Yang Changsheng Quan Yabo Wang Pengyu Wang Yujie Yang Ying Fang Nian Shao Hui Bu Xin Xu Xiaofei Li 48 5 0 28 Jun 2024
A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems Karn N. Watcharasupat Alexander Lerch 36 1 0 26 Jun 2024
Improved Remixing Process for Domain Adaptation-Based Speech Enhancement by Mitigating Data Imbalance in Signal-to-Noise Ratio Li Li Shogo Seki 43 0 0 20 Jun 2024
Towards Audio Codec-based Speech Separation J. Yip Shengkui Zhao Dianwen Ng Eng Siong Chng Bin Ma 38 6 0 18 Jun 2024
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling Vahid Ahmadi Kalkhorani Cheng Yu Anurag Kumar Ke Tan Buye Xu DeLiang Wang 45 0 0 17 Jun 2024
FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching Chaeyoung Jung Suyeon Lee Ji-Hoon Kim Joon Son Chung DiffM 47 4 0 13 Jun 2024
Pre-training Feature Guided Diffusion Model for Speech Enhancement Yiyuan Yang Niki Trigoni Andrew Markham 42 3 0 11 Jun 2024
Unleashing the Denoising Capability of Diffusion Prior for Solving Inverse Problems Jiawei Zhang Jiaxin Zhuang Cheng Jin Gen Li Yuantao Gu DiffM 78 1 0 11 Jun 2024
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation Julius Richter Yi-Chiao Wu Steven Krenn Simon Welker Bunlong Lay Shinji Watanabe Alexander Richard Timo Gerkmann 45 19 0 10 Jun 2024
Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge Thanapat Trachu Chawan Piansaddhayanon Ekapol Chuangsuwanich 37 2 0 10 Jun 2024
URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement Wangyou Zhang Robin Scheibler Kohei Saijo Samuele Cornell Chenda Li ... Jan Pirklbauer Marvin Sach Shinji Watanabe Tim Fingscheidt Yanmin Qian VLM 44 7 0 07 Jun 2024
The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement Danilo de Oliveira Simon Welker Julius Richter Timo Gerkmann 44 4 0 05 Jun 2024
Cross-Talk Reduction Zhong-Qiu Wang Anurag Kumar Shinji Watanabe 36 2 0 30 May 2024
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning Yixiao Zhang Yukara Ikemiya Woosung Choi Naoki Murata Marco A. Martínez-Ramírez Liwei Lin Gus Xia Wei-Hsiang Liao Yuki Mitsufuji Simon Dixon 57 10 0 28 May 2024
Monaural speech enhancement on drone via Adapter based transfer learning Xingyu Chen Hanwen Bi Wei-Ting Lai Fei Ma 26 1 0 16 May 2024
An Investigation of Incorporating Mamba for Speech Enhancement Rong-Yu Chao Wen-Huang Cheng Moreno La Quatra Sabato Marco Siniscalchi Chao-Han Huck Yang Szu-Wei Fu Yu Tsao Mamba 53 26 0 10 May 2024
Look Once to Hear: Target Speech Hearing with Noisy Examples Bandhav Veluri Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota 46 14 0 10 May 2024
ESC: Efficient Speech Coding with Cross-Scale Residual Vector Quantized Transformers Yuzhe Gu Enmao Diao 37 4 0 30 Apr 2024
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention Ruijie Tao Xinyuan Qian Yidi Jiang Junjie Li Jiadong Wang Haizhou Li 36 1 0 29 Apr 2024
Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance Tsubasa Ochiai Kazuma Iwamoto Marc Delcroix Rintaro Ikeshita Hiroshi Sato Shoko Araki Shigeru Katagiri 29 2 0 23 Apr 2024
Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction Zhaoxi Mu Xinyu Yang 45 6 0 19 Apr 2024
PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores Lucas Goncalves Prashant Mathur Chandrashekhar Lavania Metehan Cekic Marcello Federico Kyu J. Han 28 4 0 10 Apr 2024
SPMamba: State-space model is all you need in speech separation Kai Li Guo Chen Mamba 53 0 0 02 Apr 2024
Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation Xilin Jiang Cong Han N. Mesgarani Mamba 44 42 0 27 Mar 2024
Maximum Discrepancy Generative Regularization and Non-Negative Matrix Factorization for Single Channel Source Separation Martin Ludvigsen M. Grasmair 19 0 0 26 Mar 2024
Target Speech Extraction with Pre-trained AV-HuBERT and Mask-And-Recover Strategy Wenxuan Wu Xueyuan Chen Xixin Wu Haizhou Li Helen M. Meng 34 1 0 24 Mar 2024
CATSE: A Context-Aware Framework for Causal Target Sound Extraction Shrishail Baligar M. Kegler Bryce Irvin Marko Stamenovic Shawn Newsam 42 0 0 21 Mar 2024
Hallucination in Perceptual Metric-Driven Speech Enhancement Networks George Close Thomas Hain Stefan Goetze 40 1 0 18 Mar 2024
Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models Emilian Postolache Giorgio Mariani Luca Cosmo Emmanouil Benetos Emanuele Rodolà DiffM 48 9 0 18 Mar 2024
MusicHiFi: Fast High-Fidelity Stereo Vocoding Ge Zhu Juan-Pablo Caceres Zhiyao Duan Nicholas J. Bryan DiffM 34 4 0 15 Mar 2024
An Efficient End-to-End Approach to Noise Invariant Speech Features via Multi-Task Learning Heitor R. Guimarães Arthur Pimentel Anderson R. Avila Mehdi Rezagholizadeh Boxing Chen Tiago H. Falk 69 1 0 13 Mar 2024
Multichannel Long-Term Streaming Neural Speech Enhancement for Static and Moving Speakers Changsheng Quan Xiaofei Li 52 24 0 12 Mar 2024
Towards Decoupling Frontend Enhancement and Backend Recognition in Monaural Robust ASR Yufeng Yang Ashutosh Pandey DeLiang Wang 46 4 0 11 Mar 2024
CrossNet: Leveraging Global, Cross-Band, Narrow-Band, and Positional Encoding for Single- and Multi-Channel Speaker Separation Vahid Ahmadi Kalkhorani DeLiang Wang 48 3 0 06 Mar 2024
ConSep: a Noise- and Reverberation-Robust Speech Separation Framework by Magnitude Conditioning Kuan-Hsun Ho J. Hung Berlin Chen 42 0 0 04 Mar 2024
A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement Ravi Shankar Ke Tan Buye Xu Anurag Kumar 41 0 0 03 Mar 2024
Scaling Up Adaptive Filter Optimizers Jonah Casebeer Nicholas J. Bryan Paris Smaragdis 44 1 0 01 Mar 2024
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech Szu-Wei Fu Kuo-Hsuan Hung Yu Tsao Yu-Chiang Frank Wang SSL 32 11 0 26 Feb 2024
Sound Source Separation Using Latent Variational Block-Wise Disentanglement Karim Helwani M. Togami Paris Smaragdis Michael M. Goodwin BDL DRL 28 1 0 08 Feb 2024
Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience Xilin Jiang Cong Han Yinghao Aaron Li N. Mesgarani KELM 34 5 0 06 Feb 2024
Array Geometry-Robust Attention-Based Neural Beamformer for Moving Speakers Marvin Tammen Tsubasa Ochiai Marc Delcroix Tomohiro Nakatani S. Araki Simon Doclo 23 0 0 05 Feb 2024
Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge Simon Leglaive Matthieu Fraticelli Hend ElGhazaly Léonie Borne Mostafa Sadeghi Scott Wisdom Manuel Pariente J. Hershey Daniel Pressnitzer Jon P. Barker 24 8 0 02 Feb 2024
Online speaker diarization of meetings guided by speech separation Elio Gruttadauria Mathieu Fontaine S. Essid 17 4 0 30 Jan 2024
Continuous Target Speech Extraction: Enhancing Personalized Diarization and Extraction on Complex Recordings He Zhao Hangting Chen Jianwei Yu Yuehai Wang 56 0 0 29 Jan 2024