Audio-Synchronized Visual Animation

v1v2 (latest)

Audio-Synchronized Visual Animation

8 March 2024

Shentong Mo

ArXiv (abs)PDF HTML

Papers citing "Audio-Synchronized Visual Animation"

17 / 17 papers shown

Title
Audio-Sync Video Generation with Multi-Stream Temporal Control Shuchen Weng Haojie Zheng Zheng Chang Si Li Boxin Shi Xinlong Wang DiffM VGen 33 0 0 09 Jun 2025
Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping Subash Khanal Srikumar Sastry Aayush Dhakal Adeel Ahmad Nathan Jacobs 76 0 0 19 May 2025
KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation Xingrui Wang Jiang-Long Liu Ziyi Wang Xiaodong Yu Jialian Wu Xingwu Sun Yusheng Su Alan Yuille Zicheng Liu Emad Barsoum DiffM VGen 72 0 0 13 Apr 2025
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap Shentong Mo Zehua Chen Fan Bao Jun-Jie Zhu DiffM 104 1 0 15 Mar 2025
Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition Juncheng Wang Chao Xu Cheng Yu Lei Shang Zhe Hu Shujun Wang Liefeng Bo DiffM VGen 94 0 0 10 Mar 2025
ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation Zixuan Wang Chi-Keung Tang Yu-Wing Tai VGen DiffM 133 0 0 10 Mar 2025
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya Alex Schwing Yuki Mitsufuji VGen 294 18 0 19 Dec 2024
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation Wei Guo Heng Wang Jianbo Ma Weidong Cai DiffM 183 5 0 23 Nov 2024
Aligning Audio-Visual Joint Representations with an Agentic Workflow Shentong Mo Yibing Song 61 0 0 30 Oct 2024
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition Zixuan Wang Chi-Keung Tang Chi-Keung Tang DiffM VGen LLMAG 119 4 0 04 Oct 2024
AnyLogo: Symbiotic Subject-Driven Diffusion System with Gemini Status Jinghao Zhang Wen Qian Hao Luo Fan Wang Feng Zhao DiffM 71 0 0 26 Sep 2024
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation Masato Ishii Akio Hayakawa Takashi Shibuya Yuki Mitsufuji VGen DiffM 165 4 0 26 Sep 2024
Rhythmic Foley: A Framework For Seamless Audio-Visual Alignment In Video-to-Audio Synthesis Zhiqi Huang Dan Luo Jun Wang Huan Liao Zhiheng Li Zhiyong Wu VGen 88 4 0 13 Sep 2024
Multi-scale Multi-instance Visual Sound Localization and Segmentation Shentong Mo Haofan Wang 72 2 0 31 Aug 2024
Audio-visual Generalized Zero-shot Learning the Easy Way Shentong Mo Pedro Morgado 61 5 0 18 Jul 2024
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds Yiming Zhang Yicheng Gu Yanhong Zeng Zhening Xing Yuancheng Wang Zhizheng Wu Kai Chen VGen 105 41 0 01 Jul 2024
Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs Shentong Mo Mamba 88 6 0 07 Jun 2024