Simple and Controllable Music Generation

8 June 2023

Yossi Adi

Papers citing "Simple and Controllable Music Generation"

50 / 257 papers shown

Title
Evaluating Co-Creativity using Total Information Flow V. Gokul Chris Francis Shlomo Dubnov 21 0 0 09 Feb 2024
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models Yixiao Zhang Yukara Ikemiya Gus Xia Naoki Murata Marco A. Martínez-Ramírez Wei-Hsiang Liao Yuki Mitsufuji Simon Dixon 47 20 0 09 Feb 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 82 103 0 07 Feb 2024
Enhancing the Stability of LLM-based Speech Generation Systems through Self-Supervised Representations Álvaro Martín-Cortinas Daniel Sáez-Trigueros Iván Vallés-Pérez Biel Tura Vecino Piotr Bilinski Mateusz Lajszczak Grzegorz Beringer Roberto Barra-Chicote Jaime Lorenzo-Trueba 26 5 0 05 Feb 2024
Natural language guidance of high-fidelity text-to-speech with synthetic annotations Daniel Lyth Simon King 36 37 0 02 Feb 2024
Spiking Music: Audio Compression with Event Based Auto-encoders Martim Lisboa Guillaume Bellec 45 2 0 02 Feb 2024
Bass Accompaniment Generation via Latent Diffusion Marco Pasini M. Grachten Stefan Lattner 59 11 0 02 Feb 2024
PAM: Prompting Audio-Language Models for Audio Quality Assessment Soham Deshmukh Dareen Alharthi Benjamin Elizalde Hannes Gamper Mahmoud Al Ismail Rita Singh Bhiksha Raj Huaming Wang 42 12 0 01 Feb 2024
Proactive Detection of Voice Cloning with Localized Watermarking Robin San Roman Pierre Fernandez Alexandre Défossez Teddy Furon Tuan Tran Hady ElSahar 64 41 0 30 Jan 2024
Residual Quantization with Implicit Neural Codebooks Iris A. M. Huijben Matthijs Douze Matthew Muckley Ruud J. G. van Sloun Jakob Verbeek MQ 34 11 0 26 Jan 2024
DITTO: Diffusion Inference-Time T-Optimization for Music Generation Zachary Novack Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan DiffM 39 34 0 22 Jan 2024
Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation Zhiwei Lin Jun Chen Boshi Tang Binzhu Sha Jing Yang Yaolong Ju Fan Fan Max Welling Zhiyong Wu Helen M. Meng 46 2 0 15 Jan 2024
Masked Audio Generation using a Single Non-Autoregressive Transformer Alon Ziv Itai Gat Gaël Le Lan Tal Remez Felix Kreuk Alexandre Défossez Jade Copet Gabriel Synnaeve Yossi Adi 54 36 0 09 Jan 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 28 2 0 09 Jan 2024
Efficient Parallel Audio Generation using Group Masked Language Modeling Myeonghun Jeong Minchan Kim Joun Yeop Lee Nam Soo Kim 30 5 0 02 Jan 2024
Audiobox: Unified Audio Generation with Natural Language Prompts Apoorv Vyas Bowen Shi Matt Le Andros Tjandra Yi-Chiao Wu ... Chris Summers Carleigh Wood Joshua Lane Mary Williamson Wei-Ning Hsu 60 77 0 25 Dec 2023
StemGen: A music generation model that listens Julian Parker Janne Spijkervet Katerina Kosta Furkan Yesiler Boris Kuznetsov Ju-Chiang Wang Matt Avent Jitong Chen Duc Le MGen 35 27 0 14 Dec 2023
JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live Sven Hollowell Tashi Namgyal Paul Marshall 32 0 0 06 Dec 2023
Can MusicGen Create Training Data for MIR Tasks? N. Kroher Helena Cuesta A. Pikrakis MGen VLM 41 2 0 15 Nov 2023
Music ControlNet: Multiple Time-varying Controls for Music Generation Shih-Lun Wu Chris Donahue Shinji Watanabe Nicholas J. Bryan DiffM MGen 39 50 0 13 Nov 2023
TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models Zhen Yang Yingxue Zhang Fandong Meng Jie Zhou VLM MLLM 50 3 0 08 Nov 2023
InstrumentGen: Generating Sample-Based Musical Instruments From Text S. Nercessian Johannes Imort 31 2 0 07 Nov 2023
Musical Form Generation Lilac Atassi 13 0 0 30 Oct 2023
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation Yao Yao Peike Li Boyu Chen Alex Wang DiffM 32 9 0 29 Oct 2023
Enabling Acoustic Audience Feedback in Large Virtual Events Tamay Aykut M. Hofbauer Christopher B. Kuhn Eckehard Steinbach Bernd Girod 55 0 0 27 Oct 2023
Generative Fractional Diffusion Models Gabriel Nobis Maximilian Springenberg Marco Aversa Michael Detzel Rembert Daems ... Tolga Birdal Manfred Opper Christoph Knochenhauer Luis Oala Wojciech Samek DiffM 37 5 0 26 Oct 2023
Content-based Controls For Music Large Language Modeling Liwei Lin Gus Xia Junyan Jiang Yixiao Zhang 23 14 0 26 Oct 2023
HumanTOMATO: Text-aligned Whole-body Motion Generation Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang H. Shum VGen 45 60 0 19 Oct 2023
Audio Editing with Non-Rigid Text Prompts Francesco Paissan Luca Della Libera Zhepei Wang Mirco Ravanelli Paris Smaragdis Cem Subakan DiffM 46 5 0 19 Oct 2023
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing Yixiao Zhang Akira Maezawa Gus Xia Kazuhiko Yamamoto Simon Dixon 52 17 0 19 Oct 2023
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT Zhihao Du Jiaming Wang Qian Chen Yunfei Chu Zhifu Gao ... Wen Wang Siqi Zheng Chang Zhou Zhijie Yan Shiliang Zhang LLMAG VLM AuLLM LM&MA 47 81 0 07 Oct 2023
UniAudio: An Audio Foundation Model Toward Universal Audio Generation Dongchao Yang Jinchuan Tian Xuejiao Tan Rongjie Huang Songxiang Liu ... Jiang Bian Xixin Wu Zhou Zhao Shinji Watanabe Helen M. Meng CVBM AuLLM 30 116 0 01 Oct 2023
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation Guy Yariv Itai Gat Sagie Benaim Lior Wolf Idan Schwartz Yossi Adi DiffM VGen 47 38 0 28 Sep 2023
Towards General-Purpose Text-Instruction-Guided Voice Conversion Chun-Yi Kuan Chen-An Li Tsung-Yuan Hsu T. Lin Ho-Lam Chung Kai-Wei Chang Shuo-yiin Chang Hung-yi Lee 22 5 0 25 Sep 2023
ID.8: Co-Creating Visual Stories with Generative AI Victor Nikhil Antony Chien-Ming Huang 41 24 0 25 Sep 2023
Investigating Personalization Methods in Text to Music Generation Manos Plitsis Theodoros Kouzelis Georgios Paraskevopoulos Vassilis Katsouros Yannis Panagakis DiffM 32 10 0 20 Sep 2023
FoleyGen: Visually-Guided Audio Generation Xinhao Mei Varun K. Nagaraja Gaël Le Lan Zhaoheng Ni Ernie Chang Yangyang Shi Vikas Chandra VGen 31 21 0 19 Sep 2023
Stack-and-Delay: a new codebook pattern for music generation Gaël Le Lan Varun K. Nagaraja Ernie Chang David Kant Zhaoheng Ni Yangyang Shi Forrest N. Iandola Vikas Chandra BDL 54 7 0 15 Sep 2023
Enhance audio generation controllability through representation similarity regularization Yangyang Shi Gaël Le Lan Varun K. Nagaraja Zhaoheng Ni Xinhao Mei Ernie Chang Forrest N. Iandola Yang Liu Vikas Chandra 44 1 0 15 Sep 2023
SpatialCodec: Neural Spatial Speech Coding Zhongweiyang Xu Yong-mei Xu Vinay Kothapally Heming Wang Muqiao Yang Dong Yu 31 1 0 14 Sep 2023
AudioSR: Versatile Audio Super-resolution at Scale Haohe Liu Ke Chen Qiao Tian Wenwu Wang Mark D. Plumbley DiffM 18 21 0 13 Sep 2023
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models Bing Han Junyu Dai Weituo Hao Xinyan He Dong Guo Jitong Chen Yuxuan Wang Y. Qian Xuchen Song DiffM 32 15 0 28 Aug 2023
Sparks of Large Audio Models: A Survey and Outlook S. Latif Moazzam Shoukat Fahad Shamshad Muhammad Usama Yi Ren ... Wenwu Wang Xulong Zhang Roberto Togneri Min Zhang Björn W. Schuller LM&MA AuLLM 40 38 0 24 Aug 2023
WavMark: Watermarking for Audio Generation Guang Chen Yu-Huan Wu Shujie Liu Tao Liu Xiaoyong Du Furu Wei 25 33 0 24 Aug 2023
A Survey of AI Music Generation Tools and Models Yueyue Zhu Jared Baca Banafsheh Rekabdar Reza Rawassizadeh MGen 42 14 0 24 Aug 2023
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Yin Shan MLLM 32 46 0 22 Aug 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 47 224 0 10 Aug 2023
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 72 37 0 09 Aug 2023
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies K. Chen Yusong Wu Haohe Liu Marianna Nezhurina Taylor Berg-Kirkpatrick Shlomo Dubnov DiffM 44 75 0 03 Aug 2023
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion Robin San Roman Yossi Adi Antoine Deleforge Romain Serizel Gabriel Synnaeve Alexandre Défossez DiffM 27 21 0 02 Aug 2023