Phenaki: Variable Length Video Generation From Open Domain Textual Description

5 October 2022

Ruben Villegas

Mohammad Babaeizadeh

Pieter-Jan Kindermans

Papers citing "Phenaki: Variable Length Video Generation From Open Domain Textual Description"

39 / 289 papers shown

Title
ReVersion: Diffusion-Based Relation Inversion from Images Ziqi Huang Tianxing Wu Yuming Jiang Kelvin C. K. Chan Ziwei Liu 51 67 0 23 Mar 2023
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators Levon Khachatryan A. Movsisyan Vahram Tadevosyan Roberto Henschel Zhangyang Wang Shant Navasardyan Humphrey Shi VGen 29 542 0 23 Mar 2023
Pix2Video: Video Editing using Image Diffusion Duygu Ceylan C. Huang Niloy J. Mitra DiffM VGen 40 245 0 22 Mar 2023
Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis Hadrien Reynaud Mengyun Qiao Mischa Dombrowski Thomas Day Reza Razavi Alberto Gómez Paul Leeson Bernhard Kainz DiffM VGen MedIm 43 22 0 22 Mar 2023
NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation Sheng-Siang Yin Chenfei Wu Huan Yang Jianfeng Wang Xiaodong Wang ... Gong Ming Lijuan Wang Zicheng Liu Houqiang Li Nan Duan VGen 20 125 0 22 Mar 2023
MAGVLT: Masked Generative Vision-and-Language Transformer Sungwoong Kim DaeJin Jo Donghoon Lee Jongmin Kim VLM 47 11 0 21 Mar 2023
Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models Lukas Höllein Ang Cao Andrew Owens Justin Johnson Matthias Nießner DiffM 38 177 0 21 Mar 2023
Efficient Diffusion Training via Min-SNR Weighting Strategy Tiankai Hang Shuyang Gu Chen Li Jianmin Bao Dong Chen Han Hu Xin Geng B. Guo 30 150 0 16 Mar 2023
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing Chenyang Qi Xiaodong Cun Yong Zhang Chenyang Lei Xintao Wang Ying Shan Qifeng Chen VGen 42 331 0 16 Mar 2023
Automatic Geo-alignment of Artwork in Children's Story Books Jakub J Dylag V. Suarez James Wald Aneesha Amodini Uvara DiffM 46 0 0 16 Mar 2023
Video-P2P: Video Editing with Cross-attention Control Shaoteng Liu Yuechen Zhang Wenbo Li Zhe-nan Lin Jiaya Jia DiffM VGen 147 202 0 08 Mar 2023
Foundation Models for Decision Making: Problems, Methods, and Opportunities Sherry Yang Ofir Nachum Yilun Du Jason W. Wei Pieter Abbeel Dale Schuurmans LM&Ro OffRL LRM AI4CE 98 156 0 07 Mar 2023
A Pathway Towards Responsible AI Generated Content Chen Chen Jie Fu Lingjuan Lyu 49 71 0 02 Mar 2023
StraIT: Non-autoregressive Generation with Stratified Image Transformer Shengju Qian Huiwen Chang Yuanzhen Li Zizhao Zhang Jiaya Jia Han Zhang 39 10 0 01 Mar 2023
Scaling Robot Learning with Semantically Imagined Experience Tianhe Yu Ted Xiao Austin Stone Jonathan Tompson Anthony Brohan ... M. Dee Jodilyn Peralta Brian Ichter Karol Hausman F. Xia LM&Ro DiffM 36 146 0 22 Feb 2023
Learning 3D Photography Videos via Self-supervised Diffusion on Single Images Xiaodong Wang Chenfei Wu S. Yin Minheng Ni Jianfeng Wang ... Fan Yang Lijuan Wang Zicheng Liu Yuejian Fang Nan Duan VGen DiffM 34 7 0 21 Feb 2023
Structure and Content-Guided Video Synthesis with Diffusion Models Patrick Esser Johnathan Chiu Parmida Atighehchian Jonathan Granskog Anastasis Germanidis DiffM VGen 94 509 0 06 Feb 2023
Learning Universal Policies via Text-Guided Video Generation Yilun Du Mengjiao Yang Bo Dai H. Dai Ofir Nachum J. Tenenbaum Dale Schuurmans Pieter Abbeel PINN LM&Ro 24 233 0 31 Jan 2023
Shape-aware Text-driven Layered Video Editing Yao-Chih Lee Ji-Ze Jang Yi-Ting Chen Elizabeth Qiu Jia-Bin Huang VGen DiffM 41 53 0 30 Jan 2023
MusicLM: Generating Music From Text A. Agostinelli Timo I. Denk Zalan Borsos Jesse Engel Mauro Verzetti ... Adam Roberts Marco Tagliasacchi Matthew Sharifi Neil Zeghidour Christian Frank MGen 55 417 0 26 Jan 2023
Text-To-4D Dynamic Scene Generation Uriel Singer Shelly Sheynin Adam Polyak Oron Ashual Iurii Makarov ... Naman Goyal Andrea Vedaldi Devi Parikh Justin Johnson Yaniv Taigman DiffM 32 147 0 26 Jan 2023
ChatGPT is not all you need. A State of the Art Review of large Generative AI models Roberto Gozalo-Brizuela E.C. Garrido-Merchán 27 261 0 11 Jan 2023
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Jay Zhangjie Wu Yixiao Ge Xintao Wang Weixian Lei Yuchao Gu Yufei Shi W. Hsu Ying Shan Xiaohu Qie Mike Zheng Shou VGen 62 692 0 22 Dec 2022
CLIPPO: Image-and-Language Understanding from Pixels Only Michael Tschannen Basil Mustafa N. Houlsby CLIP VLM 32 47 0 15 Dec 2022
MAGVIT: Masked Generative Video Transformer Lijun Yu Yong Cheng Kihyuk Sohn José Lezama Han Zhang ... Alexander G. Hauptmann Ming-Hsuan Yang Yuan Hao Irfan Essa Lu Jiang DiffM VGen 38 228 0 10 Dec 2022
Traditional Classification Neural Networks are Good Generators: They are Competitive with DDPMs and GANs Guangrun Wang Philip Torr 28 8 0 27 Nov 2022
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models Gang Li Heliang Zheng Chaoyue Wang Chang Li C. Zheng Dacheng Tao DiffM 26 59 0 25 Nov 2022
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 61 37 0 23 Nov 2022
SinFusion: Training Diffusion Models on a Single Image or Video Yaniv Nikankin Niv Haim Michal Irani VGen 32 69 0 21 Nov 2022
Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training Junfan Lin Jianlong Chang Lingbo Liu Guanbin Li Liang Lin Qi Tian Changan Chen VGen 55 40 0 28 Oct 2022
Categorical SDEs with Simplex Diffusion Pierre Harvey Richemond Sander Dieleman Arnaud Doucet DiffM 19 24 0 26 Oct 2022
Text-driven Video Prediction Xue Song Jingjing Chen B. Zhu Yu-Gang Jiang VGen 12 4 0 06 Oct 2022
Temporally Consistent Transformers for Video Generation Wilson Yan Danijar Hafner Stephen James Pieter Abbeel DiffM 27 28 0 05 Oct 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 256 567 0 29 May 2022
Flexible Diffusion Modeling of Long Videos William Harvey Saeid Naderiparizi Vaden Masrani Christian D. Weilbach Frank Wood DiffM BDL VGen 176 285 0 23 May 2022
A Taxonomy of Prompt Modifiers for Text-To-Image Generation J. Oppenlaender 28 102 0 20 Apr 2022
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 245 484 0 20 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021
Transformation-based Adversarial Video Prediction on Large-Scale Data Pauline Luc Aidan Clark Sander Dieleman Diego de Las Casas Yotam Doron Albin Cassirer Karen Simonyan VGen 234 86 0 09 Mar 2020