Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation

Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation

29 March 2023

Papers citing "Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation"

13 / 13 papers shown

Title
DiffDesign: Controllable Diffusion with Meta Prior for Efficient Interior Design Generation Yuxuan Yang Wenwen Qiang Tao Geng Jingyao Wang Changwen Zheng Gang Hua DiffM 71 0 0 25 Nov 2024
COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation Mingzhen Sun Weining Wang Xinxin Zhu Jing Liu VGen DiffM 31 0 0 02 Oct 2024
MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation Mingzhen Sun Weining Wang Yanyuan Qiao Jiahui Sun Zihan Qin Longteng Guo Xinxin Zhu Jing Liu DiffM VGen 23 3 0 02 Oct 2024
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation Masato Ishii Akio Hayakawa Takashi Shibuya Yuki Mitsufuji VGen DiffM 65 4 0 26 Sep 2024
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis Qi Yang Binjie Mao Zili Wang Xing Nie Pengfei Gao Ying Guo Cheng Zhen Pengfei Yan Shiming Xiang VGen DiffM 43 5 0 10 Sep 2024
A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation Gwanghyun Kim Alonso Martinez Yu-Chuan Su Brendan Jou José Lezama ... Lijun Yu Lu Jiang A. Jansen Jacob Walker Krishna Somandepalli 30 8 0 22 May 2024
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER Mingzhen Sun Weining Wang Zihan Qin Jiahui Sun Si-Qing Chen Jiaheng Liu DiffM 29 3 0 23 Sep 2023
MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text Junchen Zhu Huan Yang Wenjing Wang Huiguo He Zixi Tuo ... Wen-Huang Cheng Lianli Gao Jingkuan Song Jianlong Fu Jiebo Luo DiffM 28 6 0 31 Jul 2023
MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images Junchen Zhu Huan Yang Huiguo He Wenjing Wang Zixi Tuo Wen-Huang Cheng Lianli Gao Jingkuan Song Jianlong Fu VGen DiffM 31 39 0 12 Jun 2023
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 254 566 0 29 May 2022
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 245 484 0 20 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 197 206 0 23 Jan 2020