Photorealistic Video Generation with Diffusion Models

11 December 2023

Papers citing "Photorealistic Video Generation with Diffusion Models"

50 / 71 papers shown

Title
Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis Michal Geyer Omer Tov Linyi Jin Richard Tucker Inbar Mosseri Tali Dekel Noah Snavely DiffM VGen 171 0 0 30 Apr 2025
VideoPanda: Video Panoramic Diffusion with Multi-view Attention Kevin Xie Amirmojtaba Sabour Jiahui Huang Despoina Paschalidou G. Klár Umar Iqbal Sanja Fidler Fangyin Wei VGen MDE 106 1 0 15 Apr 2025
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models Marianne Arriola Aaron Gokaslan Justin T Chiu Zhihan Yang Zhixuan Qi Jiaqi Han Subham Sekhar Sahoo Volodymyr Kuleshov DiffM 265 25 0 12 Mar 2025
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator Kaiwen Zheng Yongxin Chen Huayu Chen Guande He Xuan Li Jun Zhu Qinsheng Zhang DiffM 142 3 0 03 Mar 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 194 18 0 10 Feb 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 353 29 0 03 Feb 2025
PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation Qiyao Xue Xiangyu Yin Boyuan Yang Wei Gao DiffM VGen 167 12 0 30 Nov 2024
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength Wanquan Feng Jiawei Liu Pengqi Tu Tianhao Qi Mingzhen Sun Tianxiang Ma Mingcong Liu Siyu Zhou Qian He VGen 152 10 0 10 Nov 2024
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 152 16 0 07 Nov 2024
Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans 458 13 0 25 Oct 2024
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion Onkar Susladkar Jishu Sen Gupta Chirag Sehgal Sparsh Mittal Rekha Singhal DiffM VGen 88 0 0 10 Oct 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 157 102 0 09 Oct 2024
Elucidating the Design Choice of Probability Paths in Flow Matching for Forecasting Soon Hoe Lim Yijin Wang Annan Yu Emma Hart Michael W. Mahoney Xiaoye S. Li N. Benjamin Erichson AI4TS 95 2 0 04 Oct 2024
One missing piece in Vision and Language: A Survey on Comics Understanding Emanuele Vivoli Andrey Barsky Mohamed Ali Souibgui Artemis LLabres Marco Bertini Dimosthenis Karatzas 106 5 0 14 Sep 2024
Diffusion Models Are Real-Time Game Engines Dani Valevski Yaniv Leviathan Moab Arar Shlomi Fruchter DiffM VGen AI4CE 123 91 0 27 Aug 2024
Diffusion Bridge Implicit Models Kaiwen Zheng Guande He Jianfei Chen Fan Bao Jun Zhu DiffM 173 18 0 24 May 2024
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models Seyedmorteza Sadat Jakob Buhmann Derek Bradley Otmar Hilliges Romann M. Weber 138 9 0 23 May 2024
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 235 22 0 25 Apr 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 161 1 0 15 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Ziqiang Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 274 278 0 05 Jan 2024
Fast Training of Diffusion Models with Masked Transformers Hongkai Zheng Weili Nie Arash Vahdat Anima Anandkumar DiffM 101 73 0 15 Jun 2023
Common Diffusion Noise Schedules and Sample Steps are Flawed Shanchuan Lin Bingchen Liu Jiashi Li Xiao Yang DiffM 84 229 0 15 May 2023
Video Probabilistic Diffusion Models in Projected Latent Space Sihyun Yu Kihyuk Sohn Subin Kim Jinwoo Shin VGen DiffM 94 170 0 15 Feb 2023
Scalable Adaptive Computation for Iterative Generation Allan Jabri David Fleet Ting-Li Chen DiffM 74 115 0 22 Dec 2022
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 124 2,436 0 19 Dec 2022
MAGVIT: Masked Generative Video Transformer Lijun Yu Yong Cheng Kihyuk Sohn José Lezama Han Zhang ... Alexander G. Hauptmann Ming-Hsuan Yang Yuan Hao Irfan Essa Lu Jiang DiffM VGen 82 248 0 10 Dec 2022
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 216 3,757 0 06 Dec 2022
Latent Video Diffusion Models for High-Fidelity Long Video Generation Yin-Yin He Tianyu Yang Yong Zhang Ying Shan Qifeng Chen DiffM VGen 101 241 0 23 Nov 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 142 395 0 05 Oct 2022
Imagen Video: High Definition Video Generation with Diffusion Models Jonathan Ho William Chan Chitwan Saharia Jay Whang Ruiqi Gao ... Diederik P. Kingma Ben Poole Mohammad Norouzi David J. Fleet Tim Salimans VGen 176 1,545 0 05 Oct 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 85 1,434 0 29 Sep 2022
Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning Ting-Li Chen Ruixiang Zhang Geoffrey E. Hinton DiffM 104 311 0 08 Aug 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 177 120 0 23 Jun 2022
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid ... Zarana Parekh Xin Li Han Zhang Jason Baldridge Yonghui Wu EGVM 208 1,133 0 22 Jun 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 316 631 0 29 May 2022
Flexible Diffusion Modeling of Long Videos William Harvey Saeid Naderiparizi Vaden Masrani Christian D. Weilbach Frank Wood DiffM BDL VGen 226 297 0 23 May 2022
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer Songwei Ge Thomas Hayes Harry Yang Xiaoyue Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh ViT 139 223 0 07 Apr 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 230 1,642 0 07 Apr 2022
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Oran Gafni Adam Polyak Oron Ashual Shelly Sheynin Devi Parikh Yaniv Taigman DiffM 94 524 0 24 Mar 2022
MaskGIT: Masked Generative Image Transformer Huiwen Chang Han Zhang Lu Jiang Ce Liu William T. Freeman ViT 153 695 0 08 Feb 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 511 15,788 0 20 Dec 2021
Step-unrolled Denoising Autoencoders for Text Generation Nikolay Savinov Junyoung Chung Mikolaj Binkowski Erich Elsen Aaron van den Oord DiffM 125 120 0 13 Dec 2021
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 77 296 0 24 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 482 7,837 0 11 Nov 2021
Vector-quantized Image Modeling with Improved VQGAN Jiahui Yu Xin Li Jing Yu Koh Han Zhang Ruoming Pang James Qin Alexander Ku Yuanzhong Xu Jason Baldridge Yonghui Wu ViT VLM DRL 139 527 0 09 Oct 2021
ViTGAN: Training GANs with Vision Transformers Kwonjoon Lee Huiwen Chang Lu Jiang Han Zhang Zhuowen Tu Ce Liu ViT 81 186 0 09 Jul 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 504 10,526 0 17 Jun 2021
Cascaded Diffusion Models for High Fidelity Image Generation Jonathan Ho Chitwan Saharia William Chan David J. Fleet Mohammad Norouzi Tim Salimans 168 1,239 0 30 May 2021
CogView: Mastering Text-to-Image Generation via Transformers Ming Ding Zhuoyi Yang Wenyi Hong Wendi Zheng Chang Zhou ... Junyang Lin Xu Zou Zhou Shao Hongxia Yang Jie Tang ViT VLM 129 782 0 26 May 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 310 7,971 0 11 May 2021