$^R$ FLAV: Rolling Flow matching for infinite Audio Video generation

13 March 2025

Giuseppe Tarollo

Tomaso Fontanini

Claudio Ferrari

Massimo Bertozzi

ArXiv (abs)PDF HTML

Papers citing "$^R$FLAV: Rolling Flow matching for infinite Audio Video generation"

13 / 13 papers shown

Title
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling Ruihan Yang H. Gamper Sebastian Braun DiffM 66 5 0 08 Dec 2023
AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion Seungwoo Lee Chaerin Kong D. Jeon Nojun Kwak DiffM 87 20 0 06 May 2023
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 120 2,436 0 19 Dec 2022
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation Ludan Ruan Yi Ma Huan Yang Huiguo He Bei Liu Jianlong Fu Nicholas Jing Yuan Qin Jin B. Guo DiffM VGen 117 191 0 19 Dec 2022
All are Worth Words: A ViT Backbone for Diffusion Models Fan Bao Shen Nie Kaiwen Xue Yue Cao Chongxuan Li Hang Su Jun Zhu VLM 153 365 0 25 Sep 2022
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow Xingchao Liu Chengyue Gong Qiang Liu OOD 218 1,053 0 07 Sep 2022
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer Songwei Ge Thomas Hayes Harry Yang Xiaoyue Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh ViT 133 223 0 07 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 505 15,788 0 20 Dec 2021
AudioCLIP: Extending CLIP to Image, Text and Audio A. Guzhov Federico Raue Jörn Hees Andreas Dengel CLIP VLM 127 370 0 24 Jun 2021
AST: Audio Spectrogram Transformer Yuan Gong Yu-An Chung James R. Glass ViT 145 884 0 05 Apr 2021
DiffWave: A Versatile Diffusion Model for Audio Synthesis Zhifeng Kong Ming-Yu Liu Jiaji Huang Kexin Zhao Bryan Catanzaro DiffM BDL 166 1,468 0 21 Sep 2020
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric Richard Y. Zhang Phillip Isola Alexei A. Efros Eli Shechtman Oliver Wang EGVM 384 11,938 0 11 Jan 2018
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 240 8,041 0 22 May 2017