Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations

27 October 2021

Papers citing "Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations"

50 / 101 papers shown

Title
AVENet: Disentangling Features by Approximating Average Features for Voice Conversion Wenyu Wang Yiquan Zhou Jihua Zhu Hongwu Ding Jiacheng Xu Shihao Li DRL 30 0 0 08 Apr 2025
From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech Ji-Hoon Kim Jeongsoo Choi Jaehun Kim Chaeyoung Jung Joon Son Chung CVBM 50 1 0 21 Mar 2025
Enhancing Expressive Voice Conversion with Discrete Pitch-Conditioned Flow Matching Model Jialong Zuo Shengpeng Ji Minghui Fang Ziyue Jiang Xize Cheng ... Wenrui Liu Guangyan Zhang Zehai Tu Yiwen Guo Zhou Zhao 49 0 0 08 Feb 2025
Enhancing and Exploring Mild Cognitive Impairment Detection with W2V-BERT-2.0 Yueguan Wang Tatsunari Matsushima Soichiro Matsushima Toshimitsu Sakai 31 0 0 28 Jan 2025
Everyone-Can-Sing: Zero-Shot Singing Voice Synthesis and Conversion with Speech Reference Shuqi Dai Yunyun Wang Roger B. Dannenberg Zeyu Jin DiffM 54 0 0 23 Jan 2025
CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation Ji-Hoon Kim Hong-Sun Yang Yoon-Cheol Ju Il-Hwan Kim Byeong-Yeol Kim Joon Son Chung BDL 49 0 0 31 Dec 2024
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models Heng-Jui Chang Hongyu Gong Changhan Wang James R. Glass Yu-An Chung 28 0 0 31 Oct 2024
MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech Taejun Bak Youngsik Eom SeungJae Choi Young-Sun Joo 23 0 0 04 Oct 2024
Disentangling Textual and Acoustic Features of Neural Speech Representations Hosein Mohebbi Grzegorz Chrupała Willem H. Zuidema A. Alishahi Ivan Titov CoGe 26 0 0 03 Oct 2024
Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control Ryuichi Yamamoto Yuma Shirahata Masaya Kawamura Kentaro Tachibana DiffM 32 2 0 26 Sep 2024
Enhancing Polyglot Voices by Leveraging Cross-Lingual Fine-Tuning in Any-to-One Voice Conversion Giuseppe Ruggiero Matteo Testa Jurgen Van de Walle Luigi Di Caro 21 0 0 25 Sep 2024
Exploring synthetic data for cross-speaker style transfer in style representation based TTS Lucas Ueda Leonardo B. de M. M. Marques Flávio O. Simões Mário Uliani Neto Fernando Runstein Bianca Dal Bó Paula D. P. Costa 21 0 0 25 Sep 2024
Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT Ryota Komatsu Takahiro Shinozaki SSL 34 1 0 16 Sep 2024
Super Monotonic Alignment Search Junhyeok Lee Hyeongju Kim 29 0 0 12 Sep 2024
User-Driven Voice Generation and Editing through Latent Space Navigation Yusheng Tian Junbin Liu Tan Lee DiffM 33 2 0 30 Aug 2024
RAVE for Speech: Efficient Voice Conversion at High Sampling Rates A. R. Bargum Simon Lajboschitz Cumhur Erkut 27 1 0 29 Aug 2024
Hear Your Face: Face-based voice conversion with F0 estimation Jaejun Lee Yoori Oh Injune Hwang Kyogu Lee CVBM 21 1 0 19 Aug 2024
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee OOD DiffM AI4TS 43 5 0 14 Aug 2024
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency Jiawei Huang Chen Zhang Yi Ren Ziyue Jiang Zhenhui Ye Jinglin Liu Jinzheng He Xiang Yin Zhou Zhao 35 2 0 08 Aug 2024
StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice Conversion Zhichao Wang Yuanzhe Chen Xinsheng Wang Lei Xie Yuping Wang 31 1 0 05 Aug 2024
Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation J. Lee Jaehyun Park Min Jun Choi Kyogu Lee 32 2 0 07 Jul 2024
Towards the Next Frontier in Speech Representation Learning Using Disentanglement Varun Krishna Sriram Ganapathy SSL 17 1 0 02 Jul 2024
Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework Hokuto Munakata Ryo Terashima Yusuke Fujita 33 0 0 24 Jun 2024
Articulatory Encodec: Coding Speech through Vocal Tract Kinematics Cheol Jun Cho Peter Wu Tejas S. Prabhune Dhruv Agarwal Gopala K. Anumanchipalli 34 1 0 18 Jun 2024
Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy Linhan Ma Xinfa Zhu Yuanjun Lv Zhichao Wang Ziqian Wang Wendi He Hongbin Zhou Lei Xie 37 2 0 14 Jun 2024
Self-Supervised Singing Voice Pre-Training towards Speech-to-Singing Conversion Ruiqi Li Rongjie Huang Yongqi Wang Zhiqing Hong Zhou Zhao 32 1 0 04 Jun 2024
Learning Expressive Disentangled Speech Representations with Soft Speech Units and Adversarial Style Augmentation Yimin Deng Jianzong Wang Xulong Zhang Ning Cheng Jing Xiao 24 0 0 01 May 2024
Voice Attribute Editing with Text Prompt Zheng-Yan Sheng Yang Ai Li-Juan Liu Jia Pan Zhenhua Ling 26 6 0 13 Apr 2024
Removing Speaker Information from Speech Representation using Variable-Length Soft Pooling Injune Hwang Kyogu Lee 19 0 0 01 Apr 2024
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models Zeqian Ju Yuancheng Wang Kai Shen Xu Tan Detai Xin ... Shikun Zhang Jiang Bian Lei He Jinyu Li Sheng Zhao DiffM 40 143 0 05 Mar 2024
A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement Ravi Shankar Ke Tan Buye Xu Anurag Kumar 28 0 0 03 Mar 2024
VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis Wei-wei Lin Chenhang He Man-Wai Mak Jiachen Lian Kong Aik Lee DiffM 41 0 0 01 Mar 2024
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion Zhichao Wang Yuan-Jui Chen Xinsheng Wang Lei Xie Yuping Wang 22 6 0 19 Jan 2024
FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder Tan Dat Nguyen Ji-Hoon Kim Youngjoon Jang Jaehun Kim Joon Son Chung DiffM 34 5 0 18 Jan 2024
Singer Identity Representation Learning using Self-Supervised Techniques Bernardo Torres Stefan Lattner Gaël Richard SSL 32 8 0 10 Jan 2024
Creating Personalized Synthetic Voices from Articulation Impaired Speech Using Augmented Reconstruction Loss Yusheng Tian Jingyu Li Tan Lee 14 0 0 08 Jan 2024
ZMM-TTS: Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations Cheng Gong Xin Wang Erica Cooper Dan Wells Longbiao Wang Jianwu Dang Korin Richmond Junichi Yamagishi 24 21 0 22 Dec 2023
Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction Zhaoxi Mu Xinyu Yang Sining Sun Qing Yang SSL 18 8 0 16 Dec 2023
R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces Heng-Jui Chang James R. Glass 33 3 0 15 Nov 2023
Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion A. R. Bargum Stefania Serafin Cumhur Erkut 21 3 0 14 Nov 2023
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 21 24 0 08 Nov 2023
SelfVC: Voice Conversion With Iterative Refinement using Self Transformations Paarth Neekhara Shehzeen Samarah Hussain Rafael Valle Boris Ginsburg Rishabh Ranjan Shlomo Dubnov F. Koushanfar Julian McAuley 16 3 0 14 Oct 2023
A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023 Ryuichi Yamamoto Reo Yoneyama Lester Phillip Violeta Wen-Chin Huang T. Toda 19 7 0 08 Oct 2023
VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023 Yi-Hua Zhou Meng Chen Yi Lei Jihua Zhu Weifeng Zhao 16 5 0 08 Oct 2023
U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning Tao Li Zhichao Wang Xinfa Zhu Jian Cong Qiao Tian Yuping Wang Lei Xie DiffM 31 3 0 06 Oct 2023
VaSAB: The variable size adaptive information bottleneck for disentanglement on speech and singing voice F. Bous Axel Roebel 16 0 0 05 Oct 2023
Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction Jiatong Shi H. Inaguma Xutai Ma Ilia Kulikov Anna Y. Sun 45 24 0 04 Oct 2023
Towards General-Purpose Text-Instruction-Guided Voice Conversion Chun-Yi Kuan Chen An Li Tsung-Yuan Hsu T. Lin Ho-Lam Chung Kai-Wei Chang Shuo-yiin Chang Hung-yi Lee 18 5 0 25 Sep 2023
Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer Yongqiang Wang Jionghao Bai Rongjie Huang Ruiqi Li Zhiqing Hong Zhou Zhao 17 3 0 14 Sep 2023
Let There Be Sound: Reconstructing High Quality Speech from Silent Videos Ji-Hoon Kim Jaehun Kim Joon Son Chung 22 5 0 29 Aug 2023