Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion

27 January 2023

Papers citing "Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion"

50 / 56 papers shown

Title
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation Ziqiang Liu Shuangrui Ding Zhixiong Zhang Xiaoyi Dong Pan Zhang Yuhang Zang Y. Cao Dahua Lin Jiaqi Wang 78 0 0 18 Feb 2025
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations Ruben Ciranni Emilian Postolache Giorgio Mariani Michele Mancusi Giorgio Fabbro Emanuele Rodolà Luca Cosmo 74 7 0 10 Jan 2025
Simultaneous Music Separation and Generation Using Multi-Track Latent Diffusion Models Tornike Karchkhadze M. Izadi Shlomo Dubnov DiffM 44 2 0 31 Dec 2024
Continuous Speech Tokens Makes LLMs Robust Multi-Modality Learners Ze Yuan Yanqing Liu Shujie Liu Sheng Zhao AuLLM 74 1 0 06 Dec 2024
DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model JiHwan Moon Jihoon Park Jungeun Kim Jongseong Bae Hyeongwoo Jeon Ha Young Kim 88 1 0 26 Nov 2024
MeloTrans: A Text to Symbolic Music Generation Model Following Human Composition Habit Yutian Wang Wanyin Yang Zhenrong Dai Yilong Zhang Kun Zhao Hui Wang 37 2 0 17 Oct 2024
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization Ruiqi Li Siqi Zheng Xize Cheng Ziang Zhang Shengpeng Ji Zhou Zhao VGen 68 7 0 16 Oct 2024
SoundScape: A Human-AI Co-Creation System Making Your Memories Heard Chongjun Zhong Jiaxing Yu Yingping Cao Songruoyao Wu Wenqi Wu Kaipeng Zhang 20 0 0 10 Oct 2024
Presto! Distilling Steps and Layers for Accelerating Music Generation Zachary Novack Ge Zhu Jonah Casebeer Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan 45 5 0 07 Oct 2024
Prevailing Research Areas for Music AI in the Era of Foundation Models Megan Wei M. Modrzejewski Aswin Sivaraman Dorien Herremans MedIm 40 1 0 14 Sep 2024
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings Tanisha Hisariya Huan Zhang Jinhua Liang 29 3 0 12 Sep 2024
Multi-Source Music Generation with Latent Diffusion Zhongweiyang Xu Debottam Dutta Yu-Lin Wei Romit Roy Choudhury DiffM 45 1 0 10 Sep 2024
Music2Latent: Consistency Autoencoders for Latent Audio Compression Marco Pasini Stefan Lattner George Fazekas 24 6 0 12 Aug 2024
Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model Shipei Liu Xiaoya Fan Guowei Wu DiffM 32 1 0 04 Aug 2024
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss Yangyang Shu Haiming Xu Ziqin Zhou Anton van den Hengel Lingqiao Liu 30 3 0 05 Jul 2024
MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation Zihao Wang Haoxuan Liu Jiaxing Yu Tao Zhang Yan Liu Kaipeng Zhang 68 1 0 03 Jul 2024
Accompanied Singing Voice Synthesis with Fully Text-controlled Melody Ruiqi Li Zhiqing Hong Yongqi Wang Lichao Zhang Rongjie Huang Siqi Zheng Zhou Zhao 36 6 0 02 Jul 2024
Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation Or Tal Alon Ziv Itai Gat Felix Kreuk Yossi Adi 52 13 0 16 Jun 2024
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models Sanjoy Chowdhury Sayan Nag K. J. Joseph Balaji Vasan Srinivasan Dinesh Manocha DiffM 46 7 0 07 Jun 2024
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling Zeyue Tian Zhaoyang Liu Ruibin Yuan Jiahao Pan Xiaoqiang Huang Xu Tan Xu Tan Qifeng Chen Y. Guo VGen 102 16 0 06 Jun 2024
A Survey of Deep Learning Audio Generation Methods Matej Bozic Marko Horvat VLM MedIm 54 0 0 31 May 2024
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text Jiaben Chen Xin Yan Yihang Chen Siyuan Cen Qinwei Ma Haoyu Zhen Kaizhi Qian Lie Lu Chuang Gan 38 0 0 30 May 2024
QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation Chang Li Ruoyu Wang Lijuan Liu Jun Du Yixuan Sun Zilu Guo Zhenrong Zhang Yuan Jiang J. Gao Feng Ma 41 1 0 24 May 2024
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models Emilian Postolache Natalia Polouliakh Hiroaki Kitano Akima Connelly Emanuele Rodolà Luca Cosmo Taketo Akama MedIm DiffM 35 2 0 15 May 2024
FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation Jianyi Chen Wei Xue Xu Tan Zhen Ye Qi-fei Liu Yi-Ting Guo 42 2 0 13 May 2024
Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models Tianze Xu Jiajun Li Xuesong Chen Xinrui Yao Shuchang Liu 32 4 0 05 May 2024
Music Consistency Models Zhengcong Fei Mingyuan Fan Junshi Huang DiffM 53 5 0 20 Apr 2024
Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models Emilian Postolache Giorgio Mariani Luca Cosmo Emmanouil Benetos Emanuele Rodolà DiffM 43 9 0 18 Mar 2024
SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation Shuangrui Ding Zihan Liu Xiao-wen Dong Pan Zhang Rui Qian Conghui He Dahua Lin Jiaqi Wang 22 23 0 27 Feb 2024
ByteComposer: a Human-like Melody Composition Method based on Language Model Agent Xia Liang Xingjian Du Jiaju Lin Pei Zou Yuan Wan Bilei Zhu 43 4 0 24 Feb 2024
Music Style Transfer with Time-Varying Inversion of Diffusion Models Sifei Li Yuxin Zhang Fan Tang Chongyang Ma Weiming Dong Changsheng Xu DiffM 40 11 0 21 Feb 2024
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls Liwei Lin Gus Xia Yixiao Zhang Junyan Jiang 19 12 0 14 Feb 2024
Bass Accompaniment Generation via Latent Diffusion Marco Pasini M. Grachten Stefan Lattner 53 11 0 02 Feb 2024
DITTO: Diffusion Inference-Time T-Optimization for Music Generation Zachary Novack Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan DiffM 34 33 0 22 Jan 2024
Masked Audio Generation using a Single Non-Autoregressive Transformer Alon Ziv Itai Gat Gaël Le Lan Tal Remez Felix Kreuk Alexandre Défossez Jade Copet Gabriel Synnaeve Yossi Adi 54 36 0 09 Jan 2024
Audiobox: Unified Audio Generation with Natural Language Prompts Apoorv Vyas Bowen Shi Matt Le Andros Tjandra Yi-Chiao Wu ... Chris Summers Carleigh Wood Joshua Lane Mary Williamson Wei-Ning Hsu 49 76 0 25 Dec 2023
Balanced SNR-Aware Distillation for Guided Text-to-Audio Generation Bingzhi Liu Yin Cao Haohe Liu Yi Zhou DiffM 22 0 0 25 Dec 2023
StemGen: A music generation model that listens Julian Parker Janne Spijkervet Katerina Kosta Furkan Yesiler Boris Kuznetsov Ju-Chiang Wang Matt Avent Jitong Chen Duc Le MGen 25 27 0 14 Dec 2023
Zero-Shot Duet Singing Voices Separation with Diffusion Models Chin-Yun Yu Emilian Postolache Emanuele Rodolà Gyorgy Fazekas DiffM 15 3 0 13 Nov 2023
DiffEnc: Variational Diffusion with a Learned Encoder Beatrix M. G. Nielsen Anders Christensen Andrea Dittadi Ole Winther DiffM 21 10 0 30 Oct 2023
Sound of Story: Multi-modal Storytelling with Audio Jaeyeon Bae Seokhoon Jeong Seokun Kang Namgi Han Jae-Yon Lee Hyounghun Kim Taehwan Kim 26 2 0 30 Oct 2023
Content-based Controls For Music Large Language Modeling Liwei Lin Gus Xia Junyan Jiang Yixiao Zhang 18 14 0 26 Oct 2023
SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis Marco Comunità R. F. Gramaccioni Emilian Postolache Emanuele Rodolà Danilo Comminiello Joshua D. Reiss DiffM 27 16 0 23 Oct 2023
XVO: Generalized Visual Odometry via Cross-Modal Self-Training Tohida Rehman Ronit Mandal Jimuyang Zhang Debarshi Kumar Sanyal SSL 33 17 0 28 Sep 2023
Stack-and-Delay: a new codebook pattern for music generation Gaël Le Lan Varun K. Nagaraja Ernie Chang David Kant Zhaoheng Ni Yangyang Shi Forrest N. Iandola Vikas Chandra BDL 51 7 0 15 Sep 2023
Enhance audio generation controllability through representation similarity regularization Yangyang Shi Gaël Le Lan Varun K. Nagaraja Zhaoheng Ni Xinhao Mei Ernie Chang Forrest N. Iandola Yang Liu Vikas Chandra 39 1 0 15 Sep 2023
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models Bing Han Junyu Dai Weituo Hao Xinyan He Dong Guo Jitong Chen Yuxuan Wang Y. Qian Xuchen Song DiffM 27 15 0 28 Aug 2023
LongDanceDiff: Long-term Dance Generation with Conditional Diffusion Model Siqi Yang Zejun Yang Zhisheng Wang 25 12 0 23 Aug 2023
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Yin Shan MLLM 29 46 0 22 Aug 2023
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 70 37 0 09 Aug 2023