MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction

29 May 2025

Papers citing "MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction"

33 / 33 papers shown

Title
Language-Queried Target Sound Extraction Without Parallel Training Data Hao Ma Zhiyuan Peng Xu Li Yukai Li Mingjie Shao Qiuqiang Kong Xuelong Li VLM 94 2 0 14 Sep 2024
StemGen: A music generation model that listens Julian Parker Janne Spijkervet Katerina Kosta Furkan Yesiler Boris Kuznetsov Ju-Chiang Wang Matt Avent Jitong Chen Duc Le MGen 43 29 0 14 Dec 2023
Separate Anything You Describe Xubo Liu Qiuqiang Kong Yan Zhao Haohe Liu Yiitan Yuan Yuzhuo Liu Rui Xia Yuxuan Wang Mark D. Plumbley Wenwu Wang VLM 52 46 0 09 Aug 2023
Moisesdb: A dataset for source separation beyond 4-stems Igor Pereira Felipe Araújo Filip Korzeniowski Richard Vogl 11 30 0 29 Jul 2023
MusicLM: Generating Music From Text A. Agostinelli Timo I. Denk Zalan Borsos Jesse Engel Mauro Verzetti ... Adam Roberts Marco Tagliasacchi Matthew Sharifi Neil Zeghidour Christian Frank MGen 70 427 0 26 Jan 2023
AudioGen: Textually Guided Audio Generation Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi DiffM 34 295 0 30 Sep 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 78 589 0 07 Sep 2022
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 32 3,786 0 26 Jul 2022
Universal Speech Enhancement with Score-based Diffusion Joan Serrà Santiago Pascual Jordi Pons R. O. Araz D. Scaini DiffM 41 102 0 07 Jun 2022
Text-Driven Separation of Arbitrary Sounds Kevin Kilgour Beat Gfeller Qingqing Huang A. Jansen Scott Wisdom Marco Tagliasacchi 40 32 0 12 Apr 2022
SoundBeam: Target sound extraction conditioned on sound-class labels and enrollment clues for increased performance and continuous learning Marc Delcroix Jorge Bennasar Vázquez Tsubasa Ochiai K. Kinoshita Yasunori Ohishi S. Araki VLM 35 34 0 08 Apr 2022
On loss functions and evaluation metrics for music source separation Enric Gusó Jordi Pons Santiago Pascual Joan Serrà 85 21 0 16 Feb 2022
MaskGIT: Masked Generative Image Transformer Huiwen Chang Han Zhang Lu Jiang Ce Liu William T. Freeman ViT 70 656 0 08 Feb 2022
RePaint: Inpainting using Denoising Diffusion Probabilistic Models Andreas Lugmayr Martin Danelljan Andrés Romero Feng Yu Radu Timofte Luc Van Gool DiffM 284 1,385 0 24 Jan 2022
Hybrid Spectrogram and Waveform Source Separation Alexandre Défossez 29 167 0 05 Nov 2021
Score-Based Generative Modeling through Stochastic Differential Equations Yang Song Jascha Narain Sohl-Dickstein Diederik P. Kingma Abhishek Kumar Stefano Ermon Ben Poole DiffM SyDa 211 6,293 0 26 Nov 2020
DiffWave: A Versatile Diffusion Model for Audio Synthesis Zhifeng Kong Ming-Yu Liu Jiaji Huang Kexin Zhao Bryan Catanzaro DiffM BDL 48 1,429 0 21 Sep 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 174 17,550 0 19 Jun 2020
Listen to What You Want: Neural Network-based Universal Sound Selector Tsubasa Ochiai Marc Delcroix Yuma Koizumi Hiroaki Ito K. Kinoshita S. Araki 26 62 0 10 Jun 2020
Jukebox: A Generative Model for Music Prafulla Dhariwal Heewoo Jun Christine Payne Jong Wook Kim Alec Radford Ilya Sutskever VLM 76 731 0 30 Apr 2020
Music Source Separation in the Waveform Domain Alexandre Défossez Nicolas Usunier Léon Bottou Francis R. Bach 80 269 0 27 Nov 2019
Generative Modeling by Estimating Gradients of the Data Distribution Yang Song Stefano Ermon SyDa DiffM 104 3,803 0 12 Jul 2019
Single-Channel Signal Separation and Deconvolution with Generative Adversarial Networks Qiuqiang Kong Yong-mei Xu Wenwu Wang Philip J. B. Jackson Mark D. Plumbley GAN 26 24 0 14 Jun 2019
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation Yi Luo N. Mesgarani 107 1,772 0 20 Sep 2018
The Sound of Pixels Hang Zhao Chuang Gan Andrew Rouditchenko Carl Vondrick Josh H. McDermott Antonio Torralba VLM 42 532 0 09 Apr 2018
Group Normalization Yuxin Wu Kaiming He 85 3,626 0 22 Mar 2018
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 135 4,928 0 02 Nov 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 211 129,831 0 12 Jun 2017
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization Xun Huang Serge J. Belongie OOD 123 4,331 0 20 Mar 2017
SampleRNN: An Unconditional End-to-End Neural Audio Generation Model Soroush Mehri Kundan Kumar Ishaan Gulrajani Rithesh Kumar Shubham Jain Jose M. R. Sotelo Aaron Courville Yoshua Bengio 53 597 0 22 Dec 2016
CNN Architectures for Large-Scale Audio Classification Shawn Hershey Sourish Chaudhuri D. Ellis J. Gemmeke A. Jansen ... Rif A. Saurous Bryan Seybold M. Slaney Ron J. Weiss K. Wilson 70 2,488 0 29 Sep 2016
WaveNet: A Generative Model for Raw Audio Aaron van den Oord Sander Dieleman Heiga Zen Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner A. Senior Koray Kavukcuoglu DiffM 184 7,361 0 12 Sep 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 147 10,412 0 21 Jul 2016