Title
AnyEnhance: A Unified Generative Model with Prompt-Guidance and Self-Critic for Voice Enhancement Junan Zhang Jing Yang Zihao Fang Yue Wang Zehua Zhang Zhuo Wang Fan Fan Zhikai Wu 41 2 0 26 Jan 2025
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing David Perera Victor Letzelter Théo Mariotte Adrien Cortés Mickaël Chen S. Essid Ga¨el Richard 74 2 0 20 Jan 2025
Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement Wangyou Zhang Kohei Saijo Jee-weon Jung Chenda Li Shinji Watanabe Yanmin Qian 32 4 0 06 Jun 2024
TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition Chengxin Chen Pengyuan Zhang 35 0 0 19 Apr 2024
Exploration of Adapter for Noise Robust Automatic Speech Recognition Hao Shi Tatsuya Kawahara 45 5 0 28 Feb 2024
Tackling the Cocktail Fork Problem for Separation and Transcription of Real-World Soundtracks Darius Petermann G. Wichern Aswin Shanmugam Subramanian Zhong-Qiu Wang Jonathan Le Roux 27 10 0 14 Dec 2022
Improved Normalizing Flow-Based Speech Enhancement using an All-pole Gammatone Filterbank for Conditional Input Representation Martin Strauss Matteo Torcoli B. Edler 21 4 0 21 Oct 2022
SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation Chenda Li Lei Yang Weiqin Wang Y. Qian 32 24 0 26 Jan 2022
ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet Siddhant Arora Siddharth Dalmia Pavel Denisov Xuankai Chang Yushi Ueda ... Karthik Ganesan Brian Yan Ngoc Thang Vu A. Black Shinji Watanabe VLM 33 74 0 29 Nov 2021
WaveFake: A Data Set to Facilitate Audio Deepfake Detection Joel Frank Lea Schonherr DiffM 129 123 0 04 Nov 2021
Closing the Gap Between Time-Domain Multi-Channel Speech Enhancement on Real and Simulation Conditions Wangyou Zhang Jing Shi Chenda Li Shinji Watanabe Y. Qian 24 22 0 27 Oct 2021
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition Xuankai Chang Takashi Maekaku Pengcheng Guo Jing Shi Yen-Ju Lu ... Tianzi Wang Shu-Wen Yang Yu Tsao Hung-yi Lee Shinji Watanabe SSL AI4TS 24 81 0 09 Oct 2021
ESPnet-ST IWSLT 2021 Offline Speech Translation System Hirofumi Inaguma Shun Kiyono Nelson Enrique Yalta Soplin Pengcheng Guo Jun Suzuki Kevin Duh Shinji Watanabe 3DV 35 2 0 01 Jul 2021
DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement Yuma Koizumi Shigeki Karita Scott Wisdom Hakan Erdogan J. Hershey Llion Jones M. Bacchiani 19 41 0 30 Jun 2021