End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks

12 September 2017

Szu-Wei Fu

Tao-Wei Wang

Yu Tsao

Xugang Lu

Hisashi Kawai

ArXiv PDF HTML

Papers citing "End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks"

50 / 99 papers shown

Title
Speech Enhancement Using Continuous Embeddings of Neural Audio Codec Haoyang Li J. Yip Tianyu Fan Eng Siong Chng 54 0 0 22 Feb 2025
DeepExtractor: Time-domain reconstruction of signals and glitches in gravitational wave data with deep learning Tom Dooney Harsh Narola Stefano Bromuri R. L. Curier C. Broeck Sarah Caudill D. Tan 67 0 0 30 Jan 2025
Using RLHF to align speech enhancement approaches to mean-opinion quality scores Anurag Kumar Andrew Perrault Donald S. Williamson 19 0 0 17 Oct 2024
Exploiting Consistency-Preserving Loss and Perceptual Contrast Stretching to Boost SSL-based Speech Enhancement Muhammad Salman Khan Moreno La Quatra Kuo-Hsuan Hung Szu-Wei Fu Sabato Marco Siniscalchi Yu Tsao 28 2 0 08 Aug 2024
An Investigation of Incorporating Mamba for Speech Enhancement Rong-Yu Chao Wen-Huang Cheng Moreno La Quatra Sabato Marco Siniscalchi Chao-Han Huck Yang Szu-Wei Fu Yu Tsao Mamba 53 25 0 10 May 2024
D4AM: A General Denoising Framework for Downstream Acoustic Models H. Wang Yu Tsao Hsin-Min Wang Chu-Song Chen 18 4 0 28 Nov 2023
A Multiscale Autoencoder (MSAE) Framework for End-to-End Neural Network Speech Enhancement Bengt J. Borgström M. Brandstein 21 2 0 21 Sep 2023
PDPCRN: Parallel Dual-Path CRN with Bi-directional Inter-Branch Interactions for Multi-Channel Speech Enhancement Jia-Yu Pan Shulin He Tianci Wu Hui Zhang Xueliang Zhang 24 0 0 19 Sep 2023
A Two-Stage Training Framework for Joint Speech Compression and Enhancement Jiayi Huang Zeyu Yan Wenbin Jiang Fei Wen 21 0 0 08 Sep 2023
Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement Liang Wan Hongqing Liu Yi Zhou Jie Ji 25 2 0 15 Jun 2023
Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement Zilu Guo Jun Du Chin-Hui Lee Yu Gao Wen-bo Zhang DiffM 29 10 0 14 Jun 2023
End-to-End Learning for Stochastic Optimization: A Bayesian Perspective Yves Rychener Daniel Kuhn Tobias Sutter OOD BDL 28 10 0 07 Jun 2023
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI Chenshuang Zhang Chaoning Zhang Sheng Zheng Mengchun Zhang Maryam Qamar Sung-Ho Bae In So Kweon DiffM MedIm 54 64 0 23 Mar 2023
Perceive and predict: self-supervised speech representation based loss functions for speech enhancement George Close William Ravenscroft Thomas Hain Stefan Goetze SSL 32 12 0 11 Jan 2023
Blind Restoration of Real-World Audio by 1D Operational GANs T. Ince S. Kiranyaz Ozer Can Devecioglu Muhammad Salman Khan Muhammad Chowdhury Moncef Gabbouj 27 4 0 30 Dec 2022
Deep neural network techniques for monaural speech enhancement: state of the art analysis P. Ochieng 30 21 0 01 Dec 2022
A General Unfolding Speech Enhancement Method Motivated by Taylor's Theorem Andong Li Guochen Yu C. Zheng Wenzhe Liu Xiaodong Li 48 10 0 30 Nov 2022
A Two-Stage Deep Representation Learning-Based Speech Enhancement Method Using Variational Autoencoder and Adversarial Training Yang Xiang Jesper Lisby Højvang M. Rasmussen M. G. Christensen DRL 23 5 0 16 Nov 2022
Discriminatory and orthogonal feature learning for noise robust keyword spotting Donghyeon Kim Kyungdeuk Ko D. Han Hanseok Ko 27 3 0 20 Oct 2022
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement Sherif Abdulatif Ru Cao Bin Yang 29 61 0 22 Sep 2022
Inference skipping for more efficient real-time speech enhancement with parallel RNNs Xiaohuai Le Tong Lei Kai-Jyun Chen Jing Lu 38 20 0 22 Jul 2022
Audio Similarity is Unreliable as a Proxy for Audio Quality Pranay Manocha Zeyu Jin Adam Finkelstein 28 8 0 27 Jun 2022
LPCSE: Neural Speech Enhancement through Linear Predictive Coding Yang Liu Na Tang Xia Chu Yang Yang Jun Wang 28 1 0 14 Jun 2022
Does a PESQNet (Loss) Require a Clean Reference Input? The Original PESQ Does, But ACR Listening Tests Don't Ziyi Xu Maximilian Strake Tim Fingscheidt 24 3 0 04 May 2022
Perceptual Contrast Stretching on Target Feature for Speech Enhancement Rong-Yu Chao Cheng Yu Szu-Wei Fu Xugang Lu Yu Tsao VLM 31 14 0 31 Mar 2022
MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data George Close Thomas Hain Stefan Goetze 24 9 0 23 Mar 2022
A Novel Speech Intelligibility Enhancement Model based on CanonicalCorrelation and Deep Learning Tassadaq Hussain Muhammad Diyan M. Gogate K. Dashtipour Ahsan Adeel Yu Tsao Amir Hussain AuLLM 14 3 0 11 Feb 2022
Conditional Diffusion Probabilistic Model for Speech Enhancement Yen-Ju Lu Zhongqiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao DiffM 23 175 0 10 Feb 2022
A Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning for Hearing-Assistive Technologies Tassadaq Hussain Muhammad Diyan M. Gogate K. Dashtipour Ahsan Adeel Yu Tsao Amir Hussain AuLLM 16 2 0 08 Feb 2022
A Novel Temporal Attentive-Pooling based Convolutional Recurrent Architecture for Acoustic Signal Enhancement Tassadaq Hussain Wei-Chien Wang M. Gogate K. Dashtipour Yu Tsao Xugang Lu A. Ahsan Amir Hussain 21 3 0 24 Jan 2022
Towards Intelligibility-Oriented Audio-Visual Speech Enhancement Tassadaq Hussain M. Gogate K. Dashtipour Amir Hussain VLM 27 16 0 18 Nov 2021
SEOFP-NET: Compression and Acceleration of Deep Neural Networks for Speech Enhancement Using Sign-Exponent-Only Floating-Points Yu-Chen Lin Cheng Yu Y. Hsu Szu-Wei Fu Yu Tsao Tei-Wei Kuo 19 6 0 08 Nov 2021
Deep Noise Suppression Maximizing Non-Differentiable PESQ Mediated by a Non-Intrusive PESQNet Ziyi Xu Maximilian Strake Tim Fingscheidt 25 13 0 06 Nov 2021
Self-Supervised Speech Denoising Using Only Noisy Audio Signals Jiasong Wu Qingchun Li Guanyu Yang Lei Li L. Senhadji H. Shu 19 10 0 30 Oct 2021
Beyond $L_p$ clipping: Equalization-based Psychoacoustic Attacks against ASRs H. Abdullah Muhammad Sajidur Rahman Christian Peeters Cassidy Gibson Washington Garcia Vincent Bindschaedler T. Shrimpton Patrick Traynor AAML 19 9 0 25 Oct 2021
A Study on Speech Enhancement Based on Diffusion Probabilistic Model Yen-Ju Lu Yu Tsao Shinji Watanabe DiffM 13 73 0 25 Jul 2021
Controlling the Perceived Sound Quality for Dialogue Enhancement with Deep Learning C. Uhle Matteo Torcoli Jouni Paulus 24 3 0 22 Jul 2021
Controlling the Remixing of Separated Dialogue with a Non-Intrusive Quality Estimate Matteo Torcoli Jouni Paulus T. Kastner C. Uhle 32 8 0 21 Jul 2021
DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement Xiaohuai Le Hongsheng Chen Kai-Jyun Chen Jing Lu 23 78 0 12 Jul 2021
A Simultaneous Denoising and Dereverberation Framework with Target Decoupling Andong Li Wenzhe Liu Xiaoxue Luo Guochen Yu C. Zheng Xiaodong Li 31 59 0 24 Jun 2021
Deep Interaction between Masking and Mapping Targets for Single-Channel Speech Enhancement Lu Zhang Mingjiang Wang Zehua Zhang Xuyi Zhuang 18 0 0 09 Jun 2021
Self-attending RNN for Speech Enhancement to Improve Cross-corpus Generalization Ashutosh Pandey DeLiang Wang 17 39 0 26 May 2021
Multi-Metric Optimization using Generative Adversarial Networks for Near-End Speech Intelligibility Enhancement Haoyu Li Junichi Yamagishi 21 9 0 17 Apr 2021
MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement Szu-Wei Fu Cheng Yu Tsun-An Hsieh Peter William VanHarn Plantinga Mirco Ravanelli Xugang Lu Yu Tsao 19 209 0 08 Apr 2021
Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss Naoki Makishima Mana Ihori Akihiko Takashima Tomohiro Tanaka Shota Orihashi Ryo Masumura 30 8 0 02 Mar 2021
Psychoacoustic Calibration of Loss Functions for Efficient End-to-End Neural Audio Coding Kai Zhen Mi Suk Lee Jongmo Sung Seung-Wha Beack Minje Kim 34 21 0 31 Dec 2020
Multi-channel Multi-frame ADL-MVDR for Target Speech Separation Z. Zhang Yong-mei Xu Meng Yu Shi-Xiong Zhang Lianwu Chen Donald Williamson Dong Yu 11 28 0 24 Dec 2020
Speech Enhancement with Zero-Shot Model Selection Ryandhimas E. Zezario C. Fuh Hsin-Min Wang Yu Tsao 16 5 0 17 Dec 2020
SRECG: ECG Signal Super-resolution Framework for Portable/Wearable Devices in Cardiac Arrhythmias Classification Tsai-Min Chen Yuan-Hong Tsai Huan-Hsin Tseng Kai-Chun Liu Jhih-Yu Chen Chih-Han Huang Guo-Yuan Li Chun-Yen Shen Yu Tsao 41 22 0 07 Dec 2020
Deep Learning Based Signal Enhancement of Low-Resolution Accelerometer for Fall Detection Systems Kai-Chun Liu Kuo-Hsuan Hung Chia-Yeh Hsieh Hsiang-Yun Huang Chia-Tai Chan Yu Tsao 30 24 0 07 Dec 2020