Fill in the Gap! Combining Self-supervised Representation Learning with
Neural Audio Synthesis for Speech Inpainting

Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting

30 May 2024

Maxime Jacquelin

Olivier Perrotin

Papers citing "Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting"

17 / 17 papers shown

Title
Comparative layer-wise analysis of self-supervised speech models Ankita Pasad Bowen Shi Karen Livescu SSL 45 110 0 08 Nov 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 157 355 0 21 May 2022
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 166 1,794 0 26 Oct 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 108 2,879 0 14 Jun 2021
SUPERB: Speech processing Universal PERformance Benchmark Shu-Wen Yang Po-Han Chi Yung-Sung Chuang Cheng-I Jeff Lai Kushal Lakhotia ... Shuyan Dong Shang-Wen Li Shinji Watanabe Abdel-rahman Mohamed Hung-yi Lee SSL 70 910 0 03 May 2021
Speech Resynthesis from Discrete Disentangled Self-Supervised Representations Adam Polyak Yossi Adi Jade Copet Eugene Kharitonov Kushal Lakhotia Wei-Ning Hsu Abdel-rahman Mohamed Emmanuel Dupoux 45 311 0 01 Apr 2021
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Jungil Kong Jaehyeon Kim Jaekyoung Bae 89 1,891 0 12 Oct 2020
Audio-Visual Speech Inpainting with Deep Learning Giovanni Morrone Daniel Michelsanti Zheng-Hua Tan Jesper Jensen 26 26 0 09 Oct 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 71 5,677 0 20 Jun 2020
GACELA -- A generative adversarial context encoder for long audio inpainting Andrés Marafioti P. Majdak Nicki Holighaus Nathanael Perraudin 52 44 0 11 May 2020
Libri-Light: A Benchmark for ASR with Limited or No Supervision Jacob Kahn M. Rivière Weiyi Zheng Evgeny Kharitonov Qiantong Xu ... Tatiana Likhomanenko Gabriel Synnaeve Armand Joulin Abdel-rahman Mohamed Emmanuel Dupoux AuLLM 24 660 0 17 Dec 2019
Deep speech inpainting of time-frequency masks M. Kegler P. Beckmann Milos Cernak 11 38 0 20 Oct 2019
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 182 10,152 0 10 Jul 2018
WaveNet: A Generative Model for Raw Audio Aaron van den Oord Sander Dieleman Heiga Zen Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner A. Senior Koray Kavukcuoglu DiffM 208 7,361 0 12 Sep 2016
Inpainting of long audio segments with similarity graphs Nathanael Perraudin Nicki Holighaus P. Majdak Péter Balázs 16 45 0 22 Jul 2016
End-to-End Text-Dependent Speaker Verification G. Heigold Ignacio López Moreno Samy Bengio Noam M. Shazeer 39 585 0 27 Sep 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 316 149,474 0 22 Dec 2014