A Survey on Video Diffusion Models

16 October 2023

Zuxuan Wu

Papers citing "A Survey on Video Diffusion Models"

50 / 132 papers shown

Title
eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers Yogesh Balaji Seungjun Nah Xun Huang Arash Vahdat Jiaming Song ... Timo Aila S. Laine Bryan Catanzaro Tero Karras Xuan Li VLM MoE 152 825 0 02 Nov 2022
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends Zhe Gan Linjie Li Chunyuan Li Lijuan Wang Zicheng Liu Jianfeng Gao VLM 51 164 0 17 Oct 2022
A Generalist Framework for Panoptic Segmentation of Images and Videos Ting-Li Chen Lala Li Saurabh Saxena Geoffrey E. Hinton David J. Fleet VGen MLLM 57 102 0 12 Oct 2022
Efficient Diffusion Models for Vision: A Survey Anwaar Ulhaq Naveed Akhtar MedIm 87 66 0 07 Oct 2022
On Distillation of Guided Diffusion Models Chenlin Meng Robin Rombach Ruiqi Gao Diederik P. Kingma Stefano Ermon Jonathan Ho Tim Salimans VLM DiffM 67 520 0 06 Oct 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 114 388 0 05 Oct 2022
Imagen Video: High Definition Video Generation with Diffusion Models Jonathan Ho William Chan Chitwan Saharia Jay Whang Ruiqi Gao ... Diederik P. Kingma Ben Poole Mohammad Norouzi David J. Fleet Tim Salimans VGen 105 1,518 0 05 Oct 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 74 1,406 0 29 Sep 2022
Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning Ting-Li Chen Ruixiang Zhang Geoffrey E. Hinton DiffM 74 303 0 08 Aug 2022
Prompt-to-Prompt Image Editing with Cross Attention Control Amir Hertz Ron Mokady J. Tenenbaum Kfir Aberman Yael Pritch Daniel Cohen-Or DiffM 150 1,765 0 02 Aug 2022
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 171 3,882 0 26 Jul 2022
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid ... Zarana Parekh Xin Li Han Zhang Jason Baldridge Yonghui Wu EGVM 176 1,110 0 22 Jun 2022
Diffusion Models for Video Prediction and Infilling Tobias Höppe Arash Mehrjou Stefan Bauer Didrik Nielsen Andrea Dittadi DiffM VGen 82 132 0 15 Jun 2022
Elucidating the Design Space of Diffusion-Based Generative Models Tero Karras M. Aittala Timo Aila S. Laine DiffM 160 1,952 0 01 Jun 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 299 602 0 29 May 2022
Flexible Diffusion Modeling of Long Videos William Harvey Saeid Naderiparizi Vaden Masrani Christian D. Weilbach Frank Wood DiffM BDL VGen 217 295 0 23 May 2022
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers Ming Ding Wendi Zheng Wenyi Hong Jie Tang VLM 79 328 0 28 Apr 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 350 6,830 0 13 Apr 2022
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer Songwei Ge Thomas Hayes Harry Yang Xiaoyue Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh ViT 100 220 0 07 Apr 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 163 1,608 0 07 Apr 2022
Text2LIVE: Text-Driven Layered Image and Video Editing Omer Bar-Tal Dolev Ofri-Amar Rafail Fridman Yoni Kasten Tali Dekel VGen DiffM 68 310 0 05 Apr 2022
Learning Audio-Video Modalities from Image Captions Arsha Nagrani Paul Hongsuck Seo Bryan Seybold Anja Hauth Santiago Manén Chen Sun Cordelia Schmid CLIP 55 85 0 01 Apr 2022
Diffusion Probabilistic Modeling for Video Generation Ruihan Yang Prakhar Srivastava Stephan Mandt DiffM VGen 117 266 0 16 Mar 2022
Generative Adversarial Networks Gilad Cohen Raja Giryes GAN 241 30,108 0 01 Mar 2022
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks Sihyun Yu Jihoon Tack Sangwoo Mo Hyunsu Kim Junho Kim Jung-Woo Ha Jinwoo Shin DiffM VGen 87 200 0 21 Feb 2022
StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets Axel Sauer Katja Schwarz Andreas Geiger 238 509 0 01 Feb 2022
Denoising Diffusion Restoration Models Bahjat Kawar Michael Elad Stefano Ermon Jiaming Song DiffM 262 823 0 27 Jan 2022
StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2 Ivan Skorokhodov Sergey Tulyakov Mohamed Elhoseiny VGen 78 285 0 29 Dec 2021
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 296 3,582 0 20 Dec 2021
Blended Diffusion for Text-driven Editing of Natural Images Omri Avrahami Dani Lischinski Ohad Fried DiffM 99 943 0 29 Nov 2021
Conditional Image Generation with Score-Based Diffusion Models Georgios Batzolis Jan Stanczuk Carola-Bibiane Schönlieb Christian Etmann DiffM 36 191 0 26 Nov 2021
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 59 294 0 24 Nov 2021
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions Hongwei Xue Tiankai Hang Yanhong Zeng Yuchong Sun Bei Liu Huan Yang Jianlong Fu B. Guo AI4TS VLM 66 193 0 19 Nov 2021
LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Christoph Schuhmann Richard Vencu Romain Beaumont R. Kaczmarczyk Clayton Mullis Aarush Katta Theo Coombes J. Jitsev Aran Komatsuzaki VLM MLLM CLIP 206 1,422 0 03 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 363 1,081 0 13 Oct 2021
CCVS: Context-aware Controllable Video Synthesis G. L. Moing Jean Ponce Cordelia Schmid 67 79 0 16 Jul 2021
Alias-Free Generative Adversarial Networks Tero Karras M. Aittala S. Laine Erik Härkönen Janne Hellsten J. Lehtinen Timo Aila GAN 162 1,591 0 23 Jun 2021
Score-based Generative Modeling in Latent Space Arash Vahdat Karsten Kreis Jan Kautz DiffM 45 680 0 10 Jun 2021
Cascaded Diffusion Models for High Fidelity Image Generation Jonathan Ho Chitwan Saharia William Chan David J. Fleet Mohammad Norouzi Tim Salimans 138 1,213 0 30 May 2021
A Good Image Generator Is What You Need for High-Resolution Video Synthesis Yu Tian Jian Ren Menglei Chai Kyle Olszewski Xi Peng Dimitris N. Metaxas Sergey Tulyakov VGen 91 186 0 30 Apr 2021
GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan DiffM VGen 61 240 0 30 Apr 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 295 498 0 20 Apr 2021
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman VGen 133 1,172 0 01 Apr 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 201 2,137 0 29 Mar 2021
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin B. Guo ViT 417 21,347 0 25 Mar 2021
Diffusion Probabilistic Models for 3D Point Cloud Generation Shitong Luo Wei Hu 3DPC 247 740 0 02 Mar 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 385 4,919 0 24 Feb 2021
Improved Denoising Diffusion Probabilistic Models Alex Nichol Prafulla Dhariwal DiffM 297 3,671 0 18 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 362 2,039 0 09 Feb 2021
Maximum Likelihood Training of Score-Based Diffusion Models Yang Song Conor Durkan Iain Murray Stefano Ermon DiffM 126 663 0 22 Jan 2021