v1v2v3v4 (latest)

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

7 April 2022

Devi Parikh

Papers citing "Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer"

50 / 176 papers shown

Title
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset Zhixi Cai Shreya Ghosh Aman Pankaj Adatia Munawar Hayat Abhinav Dhall Kalin Stefanov 83 37 0 26 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 327 1,190 0 25 Nov 2023
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline V.Ya. Arkhipkin Zein Shaheen Viacheslav Vasilev E. Dakhova Andrey Kuznetsov Denis Dimitrov DiffM VGen 93 5 0 22 Nov 2023
MoVideo: Motion-Aware Video Generation with Diffusion Models Christos Sakaridis Yuchen Fan Kai Zhang Radu Timofte Luc Van Gool Rakesh Ranjan DiffM VGen 85 10 0 19 Nov 2023
Make Pixels Dance: High-Dynamic Video Generation Yan Zeng Guoqiang Wei Jiani Zheng Jiaxin Zou Yang Wei Yuchen Zhang Hang Li DiffM VGen 88 101 0 18 Nov 2023
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction Xinyuan Chen Yaohui Wang Lingjun Zhang Shaobin Zhuang Xin Ma Jiashuo Yu Yali Wang Dahua Lin Yu Qiao Ziwei Liu VGen DiffM 79 146 0 31 Oct 2023
Transformation vs Tradition: Artificial General Intelligence (AGI) for Arts and Humanities Zheng Liu Yiwei Li Qian Cao Junwen Chen Tianze Yang ... John Gibbs Khaled Rasheed Ninghao Liu Gengchen Mai Tianming Liu AI4CE 129 10 0 30 Oct 2023
FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling Haonan Qiu Menghan Xia Yong Zhang Yin-Yin He Xintao Wang Ying Shan Ziwei Liu DiffM VGen 96 102 0 23 Oct 2023
A Survey on Video Diffusion Models Zhen Xing Qijun Feng Haoran Chen Qi Dai Hang-Rui Hu Hang Xu Zuxuan Wu Yu-Gang Jiang EGVM VGen 179 139 0 16 Oct 2023
MotionDirector: Motion Customization of Text-to-Video Diffusion Models Rui Zhao Yuchao Gu Jay Zhangjie Wu David Junhao Zhang Jia-Wei Liu Weijia Wu Jussi Keppo Mike Zheng Shou DiffM VGen 110 118 0 12 Oct 2023
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing Yuren Cong Mengmeng Xu Christian Simon Shoufa Chen Jiawei Ren Yanping Xie Juan-Manuel Perez-Rua Bodo Rosenhahn Tao Xiang Sen He DiffM VGen 122 87 0 09 Oct 2023
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation Lijun Yu José Lezama N. B. Gundavarapu Luca Versari Kihyuk Sohn ... Boqing Gong Ming-Hsuan Yang Irfan Essa David A. Ross Lu Jiang 137 325 0 09 Oct 2023
Generating 3D Brain Tumor Regions in MRI using Vector-Quantization Generative Adversarial Networks Meng Zhou Matthias W. Wagner U. Tabori C. Hawkins B. Ertl-Wagner Farzad Khalvati MedIm 111 5 0 02 Oct 2023
LLM-grounded Video Diffusion Models Long Lian Baifeng Shi Semih Yavuz Ye Liu Boyi Li DiffM 103 55 0 29 Sep 2023
GAIA-1: A Generative World Model for Autonomous Driving Masane Fuchi Lloyd Russell Hudson Yeo Zak Murez Hiroto Minami Alex Kendall Tomohiro Takagi Gianluca Corrado VGen 130 252 0 29 Sep 2023
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation Guy Yariv Itai Gat Sagie Benaim Lior Wolf Idan Schwartz Yossi Adi DiffM VGen 105 41 0 28 Sep 2023
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation David Junhao Zhang Jay Zhangjie Wu Jia-Wei Liu Rui Zhao L. Ran Yuchao Gu Difei Gao Mike Zheng Shou DiffM VGen 129 223 0 27 Sep 2023
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models Yaohui Wang Xinyuan Chen Xin Ma Shangchen Zhou Ziqi Huang ... Chen Change Loy Bo Dai Dahua Lin Yu Qiao Ziwei Liu VGen DiffM 112 231 0 26 Sep 2023
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning Han Lin Abhaysinh Zala Jaemin Cho Joey Tianyi Zhou LM&Ro VGen DiffM 148 81 0 26 Sep 2023
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER Mingzhen Sun Weining Wang Zihan Qin Jiahui Sun Si-Qing Chen Qingbin Liu DiffM 59 3 0 23 Sep 2023
Generative Image Dynamics Zhengqi Li Richard Tucker Noah Snavely Aleksander Holynski DiffM 102 66 0 14 Sep 2023
NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu Hao Fei Leigang Qu Wei Ji Tat-Seng Chua MLLM 115 507 0 11 Sep 2023
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation Jiaxi Gu Shicong Wang Haoyu Zhao Tianyi Lu Xing Zhang Zuxuan Wu Songcen Xu Wei Zhang Yu-Gang Jiang Hang Xu DiffM VGen 82 48 0 07 Sep 2023
Neural Vector Fields: Generalizing Distance Vector Fields by Codebooks and Zero-Curl Regularization Xianghui Yang Guosheng Lin Zhenghao Chen Luping Zhou 103 2 0 04 Sep 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation Xin Li Wenqing Chu Ye Wu Weihang Yuan Fanglong Liu Qi Zhang Fu Li Haocheng Feng Errui Ding Jingdong Wang VGen 135 53 0 01 Sep 2023
Learning Modulated Transformation in GANs Ceyuan Yang Qihang Zhang Yinghao Xu Jiapeng Zhu Yujun Shen Bo Dai 49 1 0 29 Aug 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani Jing Liu 270 31 0 27 Aug 2023
Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs Hao Fei Shengqiong Wu Wei Ji Hanwang Zhang Tat-Seng Chua VGen DiffM 89 34 0 26 Aug 2023
APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency Yupu Yao Shangqi Deng Zihan Cao Harry Zhang Liang-Jian Deng DiffM 93 14 0 24 Aug 2023
SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing Qi Dai Hang-Rui Hu Zuxuan Wu Yu-Gang Jiang VGen DiffM 103 84 0 18 Aug 2023
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation Sadeep Jayasumana Daniel Glasner Srikumar Ramalingam Andreas Veit Ayan Chakrabarti Surinder Kumar DiffM 47 0 0 14 Aug 2023
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation Yi Wang Yinan He Yizhuo Li Kunchang Li Jiashuo Yu ... Ping Luo Ziwei Liu Yali Wang Limin Wang Yu Qiao VLM VGen 125 275 0 13 Jul 2023
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation Yin-Yin He Menghan Xia Haoxin Chen Xiaodong Cun Yuan Gong ... Yong Zhang Xintao Wang Chao-Liang Weng Ying Shan Qifeng Chen DiffM VGen 63 79 0 13 Jul 2023
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs Lijun Yu Yong Cheng Zhiruo Wang Vivek Kumar Wolfgang Macherey ... Yonatan Bisk Ming-Hsuan Yang Kevin Patrick Murphy Alexander G. Hauptmann Lu Jiang MLLM 97 52 0 30 Jun 2023
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising Fu Lee Wang Wenshuo Chen Guanglu Song Han-Jia Ye Yu Liu Hongsheng Li VGen DiffM 117 93 0 29 May 2023
VDT: General-purpose Video Diffusion Transformers via Mask Modeling Haoyu Lu Guoxing Yang Nanyi Fei Yuqi Huo Zhiwu Lu Ping Luo Mingyu Ding DiffM VGen 77 68 0 22 May 2023
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models Songwei Ge Seungjun Nah Guilin Liu Tyler Poon Andrew Tao Bryan Catanzaro David Jacobs Jia-Bin Huang Ming-Yuan Liu Yogesh Balaji DiffM VGen 125 263 0 17 May 2023
LEO: Generative Latent Image Animator for Human Video Synthesis Yaohui Wang Xin Ma Xinyuan Chen A. Dantcheva Bo Dai Yu Qiao DiffM 183 33 0 06 May 2023
Multi-object Video Generation from Single Frame Layouts Yang Wu Zhi-Bin Liu Hefeng Wu Liang Lin 138 3 0 06 May 2023
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models A. Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis 3DGS VGen 241 1,106 0 18 Apr 2023
Text2Performer: Text-Driven Human Video Generation Yuming Jiang Shuai Yang Tong Liang Koh Wayne Wu Chen Change Loy Ziwei Liu DiffM VGen 96 52 0 17 Apr 2023
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation Jie An Songyang Zhang Harry Yang Sonal Gupta Jia-Bin Huang Jiebo Luo Xiaoyue Yin DiffM VGen 114 114 0 17 Apr 2023
MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain Zhifeng Ma Hao Zhang Jie Liu 129 7 0 16 Apr 2023
Video Generation Beyond a Single Clip Hsin-Ping Huang Yu-Chuan Su Ming-Hsuan Yang VLM DiffM VGen 86 3 0 15 Apr 2023
MoStGAN-V: Video Generation with Temporal Motion Styles Xiaoqian Shen Xiang Li Mohamed Elhoseiny VGen 75 32 0 05 Apr 2023
Seer: Language Instructed Video Prediction with Latent Diffusion Models Xianfan Gu Chuan Wen Weirui Ye Jiaming Song Yang Gao DiffM VGen 64 43 0 27 Mar 2023
Persistent Nature: A Generative Model of Unbounded 3D Worlds Lucy Chai Richard Tucker Zhengqi Li Phillip Isola Noah Snavely VGen 93 31 0 23 Mar 2023
NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation Sheng-Siang Yin Chenfei Wu Huan Yang Jianfeng Wang Xiaodong Wang ... Gong Ming Lijuan Wang Zicheng Liu Houqiang Li Nan Duan VGen 83 137 0 22 Mar 2023
Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers Jaehoon Yoo Semin Kim Doyup Lee Chiheon Kim Seunghoon Hong 75 3 0 20 Mar 2023
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation Zhengxiong Luo Dayou Chen Yingya Zhang Yan Huang Liangsheng Wang Yujun Shen Deli Zhao Jinren Zhou Tien-Ping Tan DiffM VGen 220 322 0 15 Mar 2023