CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

29 May 2022

Papers citing "CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers"

50 / 458 papers shown

Title
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers Haoyu Ma Shahin Mahdizadehaghdam Bichen Wu Zhipeng Fan Yuchao Gu Wenliang Zhao Lior Shapira Xiaohui Xie DiffM VGen 66 4 0 19 Dec 2023
FreeInit: Bridging Initialization Gap in Video Diffusion Models Tianxing Wu Chenyang Si Yuming Jiang Ziqi Huang Ziwei Liu DiffM VGen 82 53 0 12 Dec 2023
PEEKABOO: Interactive Video Generation via Masked-Diffusion Yash Jain Anshul Nasery Vibhav Vineet Harkirat Singh Behl VGen 100 35 0 12 Dec 2023
Photorealistic Video Generation with Diffusion Models Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Fei-Fei Li Irfan Essa Lu Jiang José Lezama VGen 141 201 0 11 Dec 2023
Neutral Editing Framework for Diffusion-based Video Editing Sunjae Yoon Gwanhyeong Koo Jiajing Hong Changdong Yoo VGen DiffM 47 1 0 10 Dec 2023
Diffusion for Natural Image Matting Yihan Hu Yiheng Lin Wei Wang Yao-Min Zhao Yunchao Wei Humphrey Shi 103 9 0 10 Dec 2023
Generating Illustrated Instructions Sachit Menon Ishan Misra Rohit Girdhar DiffM 86 5 0 07 Dec 2023
RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models Ozgur Kara Barışcan Kurtkaya Hidir Yesiltepe James M. Rehg Pinar Yanardag VGen DiffM 102 55 0 07 Dec 2023
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation Zhiwu Qing Shiwei Zhang Jiayu Wang Xiang Wang Yujie Wei Yingya Zhang Changxin Gao Nong Sang VGen DiffM 64 43 0 07 Dec 2023
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion Yujie Wei Shiwei Zhang Zhiwu Qing Hangjie Yuan Zhiheng Liu Yu Liu Yingya Zhang Jingren Zhou Hongming Shan DiffM VGen 75 98 0 07 Dec 2023
MEVG: Multi-event Video Generation with Text-to-Video Models Gyeongrok Oh Jaehwan Jeong Sieun Kim Wonmin Byeon Jinkyu Kim Sungwoong Kim Sangpil Kim VGen DiffM 112 23 0 07 Dec 2023
AVID: Any-Length Video Inpainting with Diffusion Model Zhixing Zhang Bichen Wu Xiaoyan Wang Yaqiao Luo Luxin Zhang Yinan Zhao Peter Vajda Dimitris N. Metaxas Licheng Yu VGen DiffM 128 42 0 06 Dec 2023
F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis Jingkuan Song Jianzhi Liu Lianli Gao Jingkuan Song DiffM VGen 61 5 0 06 Dec 2023
Drag-A-Video: Non-rigid Video Editing with Point-based Interaction Yao Teng Enze Xie Yue Wu Haoyu Han Zhenguo Li Xihui Liu DiffM VGen 54 14 0 05 Dec 2023
MagicStick: Controllable Video Editing via Control Handle Transformations Yue Ma Xiaodong Cun Yin-Yin He Chenyang Qi Xintao Wang Ying Shan Xiu Li Qifeng Chen VGen 120 26 0 05 Dec 2023
Fine-grained Controllable Video Generation via Object Appearance and Context Hsin-Ping Huang Yu-Chuan Su Deqing Sun Lu Jiang Xuhui Jia Yukun Zhu Ming-Hsuan Yang DiffM VGen 73 15 0 05 Dec 2023
SAVE: Protagonist Diversification with Structure Agnostic Video Editing Yeji Song Wonsik Shin Junsoo Lee Jeesoo Kim Nojun Kwak DiffM VGen 157 6 0 05 Dec 2023
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance Cong Wang Jiaxi Gu Panwen Hu Songcen Xu Hang Xu Xiaodan Liang VGen 109 16 0 05 Dec 2023
DiffiT: Diffusion Vision Transformers for Image Generation Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat 101 75 0 04 Dec 2023
VideoBooth: Diffusion-based Video Generation with Image Prompts Yuming Jiang Tianxing Wu Shuai Yang Chenyang Si Dahua Lin Yu Qiao Chen Change Loy Ziwei Liu DiffM VGen 120 74 0 01 Dec 2023
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models Pengxiang Li Kai Chen Zhili Liu Ruiyuan Gao Lanqing Hong Guo Zhou Hua Yao Dit-Yan Yeung Huchuan Lu Xu Jia VGen DiffM 66 0 0 01 Dec 2023
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter Gongye Liu Menghan Xia Yong Zhang Haoxin Chen Jinbo Xing Xintao Wang Yujiu Yang Ying Shan DiffM VGen 201 0 0 01 Dec 2023
$ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models$ ART $\boldsymbol{\cdot}$ V: Auto-Regressive Text-to-Video Generation with Diffusion Models Wenming Weng Ruoyu Feng Yanhui Wang Qi Dai Chunyu Wang ... Jianmin Bao Yuhui Yuan Chong Luo Yueyi Zhang Zhiwei Xiong VGen 83 38 0 30 Nov 2023
MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation Yanhui Wang Jianmin Bao Wenming Weng Ruoyu Feng Dacheng Yin ... Yuhui Yuan Chuanxin Tang Xiaoyan Sun Chong Luo Baining Guo DiffM VGen 109 17 0 30 Nov 2023
VBench: Comprehensive Benchmark Suite for Video Generative Models Ziqi Huang Yinan He Jiashuo Yu Fan Zhang Chenyang Si ... Xinyuan Chen Limin Wang Dahua Lin Yu Qiao Ziwei Liu VGen 204 451 0 29 Nov 2023
C3Net: Compound Conditioned ControlNet for Multimodal Content Generation Juntao Zhang Yuehuai Liu Yu-Wing Tai Chi-Keung Tang DiffM 76 5 0 29 Nov 2023
MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang VGen DiffM 119 12 0 29 Nov 2023
Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer Danah Yatim Rafail Fridman Omer Bar-Tal Yoni Kasten Tali Dekel DiffM VGen 98 54 0 28 Nov 2023
SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models Yuwei Guo Ceyuan Yang Anyi Rao Maneesh Agrawala Dahua Lin Bo Dai DiffM VGen 97 125 0 28 Nov 2023
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation Liucheng Hu Xin Gao Peng Zhang Ke Sun Bang Zhang Liefeng Bo DiffM VGen 139 397 0 28 Nov 2023
MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation Jingkuan Song Litao Guo Lianli Gao Hengtao Shen Jingkuan Song VGen 76 4 0 28 Nov 2023
FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic Scene Syntax Yu Lu Linchao Zhu Hehe Fan Yi Yang VGen DiffM 83 13 0 27 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 330 1,190 0 25 Nov 2023
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline V.Ya. Arkhipkin Zein Shaheen Viacheslav Vasilev E. Dakhova Andrey Kuznetsov Denis Dimitrov DiffM VGen 93 5 0 22 Nov 2023
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning Jiaxi Lv Yi Huang Mingfu Yan Jiancheng Huang Jianzhuang Liu Yifan Liu Yafei Wen Xiaoxin Chen Shifeng Chen VGen DiffM 119 25 0 21 Nov 2023
AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance Zuozhuo Dai Zhenghao Zhang Yao Yao Bingxue Qiu Siyu Zhu Long Qin Weizhi Wang VGen 100 47 0 21 Nov 2023
MoVideo: Motion-Aware Video Generation with Diffusion Models Christos Sakaridis Yuchen Fan Kai Zhang Radu Timofte Luc Van Gool Rakesh Ranjan DiffM VGen 85 10 0 19 Nov 2023
Make Pixels Dance: High-Dynamic Video Generation Yan Zeng Guoqiang Wei Jiani Zheng Jiaxin Zou Yang Wei Yuchen Zhang Hang Li DiffM VGen 88 101 0 18 Nov 2023
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning Rohit Girdhar Mannat Singh Andrew Brown Quentin Duval S. Azadi Sai Saketh Rambhatla Akbar Shah Xi Yin Devi Parikh Ishan Misra DiffM VGen 129 209 0 17 Nov 2023
A Survey of AI Text-to-Image and AI Text-to-Video Generators Aditi Singh 43 22 0 10 Nov 2023
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models Shiwei Zhang Jiayu Wang Yingya Zhang Kang Zhao Hangjie Yuan Zhan Qin Xiang Wang Deli Zhao Jingren Zhou DiffM VGen 135 231 0 07 Nov 2023
POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation Shijie Ma Huayi Xu Mengjian Li Weidong Geng Yaxiong Wang Meng Wang DiffM VGen 47 0 0 02 Nov 2023
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models Hong Chen Xin Wang Guanning Zeng Yipeng Zhang Yuwei Zhou Feilin Han Wenwu Zhu Wenwu Zhu VGen DiffM 84 1 0 02 Nov 2023
A Survey on Video Diffusion Models Zhen Xing Qijun Feng Haoran Chen Qi Dai Hang-Rui Hu Hang Xu Zuxuan Wu Yu-Gang Jiang EGVM VGen 179 139 0 16 Oct 2023
MotionDirector: Motion Customization of Text-to-Video Diffusion Models Rui Zhao Yuchao Gu Jay Zhangjie Wu David Junhao Zhang Jia-Wei Liu Weijia Wu Jussi Keppo Mike Zheng Shou DiffM VGen 113 118 0 12 Oct 2023
DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model Xiaofan Li Yifu Zhang Xiaoqing Ye VGen 125 78 0 11 Oct 2023
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation Bo Peng Xinyuan Chen Yaohui Wang Chaochao Lu Yu Qiao DiffM VGen 55 7 0 11 Oct 2023
State of the Art on Diffusion Models for Visual Computing Ryan Po Wang Yifan Vladislav Golyanik Kfir Aberman Jonathan T. Barron ... Matthias Nießner Bjorn Ommer Christian Theobalt Peter Wonka Gordon Wetzstein 130 111 0 11 Oct 2023
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing Yuren Cong Mengmeng Xu Christian Simon Shoufa Chen Jiawei Ren Yanping Xie Juan-Manuel Perez-Rua Bodo Rosenhahn Tao Xiang Sen He DiffM VGen 122 87 0 09 Oct 2023
LLM-grounded Video Diffusion Models Long Lian Baifeng Shi Semih Yavuz Ye Liu Boyi Li DiffM 103 55 0 29 Sep 2023