PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

3 July 2024

Papers citing "PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation"

9 / 9 papers shown

Title
T2A-Feedback: Improving Basic Capabilities of Text-to-Audio Generation via Fine-grained AI Feedback Zehan Wang Ke Lei Chen Zhu Jiawei Huang Sashuai Zhou ... Xize Cheng Shengpeng Ji Zhenhui Ye Tao Jin Zhou Zhao 29 0 0 15 May 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach Rory Young Nicolas Pugeault AAML 62 0 0 14 Oct 2024
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions Yishuo Wang Hangting Chen Dongchao Yang Zhiyong Wu Xixin Wu DiffM 45 2 0 19 Sep 2024
MambaFoley: Foley Sound Generation using Selective State-Space Models Marco Furio Colombo Francesca Ronchini Luca Comanducci Fabio Antonacci Mamba 25 1 0 13 Sep 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 82 101 0 07 Feb 2024
T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis Yoonjin Chung Junwon Lee Juhan Nam 40 13 0 17 Jan 2024
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit Xueyao Zhang Liumeng Xue Yicheng Gu Yuancheng Wang Haorui He ... Mingxuan Wang Jun Han Kai Chen Haizhou Li Zhizheng Wu 29 26 0 15 Dec 2023
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model Deepanway Ghosal Navonil Majumder Ambuj Mehrish Soujanya Poria 152 144 0 24 Apr 2023