CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

29 May 2022

Papers citing "CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers"

50 / 458 papers shown

Title
PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation Tianyuan Zhang Hong-Xing Yu Rundi Wu Brandon Yushan Feng Changxi Zheng Noah Snavely Jiajun Wu William T. Freeman AI4CE VGen 154 77 0 19 Apr 2024
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models Sai Sree Harsha Ambareesh Revanur Dhwanit Agarwal Shradha Agrawal VGen DiffM 68 4 0 18 Apr 2024
AniClipart: Clipart Animation with Text-to-Video Priors Rong Wu Wanchao Su Kede Ma Jing Liao 81 5 0 18 Apr 2024
Motion Inversion for Video Customization Luozhou Wang Guibao Shen Yixun Liang Xin Tao Pengfei Wan Di Zhang Yijun Li Yingcong Chen VGen DiffM 67 9 0 29 Mar 2024
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models Zhongwei Zhang Fuchen Long Yingwei Pan Zhaofan Qiu Ting Yao Yang Cao Tao Mei VGen 95 29 0 25 Mar 2024
A Survey on Long Video Generation: Challenges, Methods, and Prospects Chengxuan Li Di Huang Zeyu Lu Yang Xiao Qingqi Pei Lei Bai EGVM 85 24 0 25 Mar 2024
AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks Max Ku Cong Wei Weiming Ren Huan Yang Wenhu Chen VGen DiffM 168 29 0 21 Mar 2024
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition Sihyun Yu Weili Nie De-An Huang Boyi Li Jinwoo Shin A. Anandkumar VGen DiffM 100 19 0 21 Mar 2024
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework Zhengqing Yuan Ruoxi Chen Zhaoxu Li Haolong Jia Lifang He Chi Wang Lichao Sun VGen 109 28 0 20 Mar 2024
You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs Yihong Luo Xiaolong Chen Xinghua Qu Jing Tang 94 11 0 19 Mar 2024
CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility Bojia Zi Shihao Zhao Xianbiao Qi Jianan Wang Yukai Shi Qianyu Chen Bin Liang Kam-Fai Wong Lei Zhang DiffM VGen 94 23 0 18 Mar 2024
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation Frank Zhang Yibo Zhang Quan Zheng R. Ma W. Hua Hujun Bao Weiwei Xu Changqing Zou 97 11 0 14 Mar 2024
Intention-driven Ego-to-Exo Video Generation Hongcheng Luo Kai Zhu Wei Zhai Yang Cao DiffM VGen 71 9 0 14 Mar 2024
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts Yue Ma Yin-Yin He Hongfa Wang Andong Wang Chenyang Qi ... Xiu Li Zhifeng Li H. Shum Wei Liu Qifeng Chen VGen DiffM 161 43 0 13 Mar 2024
DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation Guosheng Zhao Xiaofeng Wang Zheng Zhu Xinze Chen Guan Huang Xiaoyi Bao Xingang Wang VGen 62 80 0 11 Mar 2024
WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs Deshun Yang Luhui Hu Yu Tian Zihao Li Chris Kelly Bang Yang Cindy Yang Yuexian Zou VGen 94 14 0 10 Mar 2024
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation Joseph Cho Fachrina Dewi Puspitasari Sheng Zheng Jingyao Zheng Lik-Hang Lee Tae-Ho Kim Choong Seon Hong Chaoning Zhang EGVM VGen 104 43 0 08 Mar 2024
Pix2Gif: Motion-Guided Diffusion for GIF Generation Hitesh Kandala Jianfeng Gao Jianwei Yang VGen DiffM 85 3 0 07 Mar 2024
UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control Xuweiyi Chen Tian Xia Sihan Xu VGen DiffM 105 8 0 04 Mar 2024
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Ekaterina Deyneka Hsiang-wei Chao ... Yuwei Fang Hsin-Ying Lee Jian Ren Ming-Hsuan Yang Sergey Tulyakov VGen 166 211 0 29 Feb 2024
Context-aware Talking Face Video Generation Meidai Xuanyuan Yuwang Wang Honglei Guo Qionghai Dai DiffM 75 0 0 28 Feb 2024
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models Yixin Liu Kai Zhang Yuan Li Zhiling Yan Chujie Gao ... Yue Huang Hanchi Sun Jianfeng Gao Lifang He Lichao Sun VLM VGen EGVM 194 300 0 27 Feb 2024
Intelligent Director: An Automatic Framework for Dynamic Visual Composition using ChatGPT Sixiao Zheng Jingyang Huo Yu Wang Yanwei Fu VGen DiffM 69 1 0 24 Feb 2024
Genie: Generative Interactive Environments Jake Bruce Michael Dennis Ashley D. Edwards Jack Parker-Holder Yuge Shi ... Konrad Zolna Jeff Clune Nando de Freitas Satinder Singh Tim Rocktaschel VGen VLM 156 188 0 23 Feb 2024
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis Willi Menapace Aliaksandr Siarohin Ivan Skorokhodov Ekaterina Deyneka Tsai-Shien Chen ... Yuwei Fang A. Stoliar Elisa Ricci Jian Ren Sergey Tulyakov VGen 134 62 0 22 Feb 2024
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models Yixuan Ren Yang Zhou Jimei Yang Jing Shi Difan Liu Feng Liu Mingi Kwon Abhinav Shrivastava DiffM VGen 140 37 0 22 Feb 2024
LLMBind: A Unified Modality-Task Integration Framework Bin Zhu Munan Ning Peng Jin Bin Lin Jinfa Huang ... Junwu Zhang Zhenyu Tang Mingjun Pan Xing Zhou Li-ming Yuan MLLM 74 6 0 22 Feb 2024
Dynamic and Super-Personalized Media Ecosystem Driven by Generative AI: Unpredictable Plays Never Repeating The Same Sungjun Ahn Hyun-Jeong Yim Youngwan Lee Sung-Ik Park VGen 92 4 0 19 Feb 2024
Magic-Me: Identity-Specific Video Customized Diffusion Ze Ma Daquan Zhou Chun-Hsiao Yeh Xue-She Wang Xiuyu Li Huanrui Yang Zhen Dong Kurt Keutzer Jiashi Feng VGen DiffM 86 32 0 14 Feb 2024
Animated Stickers: Bringing Stickers to Life with Video Diffusion David Yan Winnie Zhang Luxin Zhang Anmol Kalia Dingkang Wang ... Guan Pang Ali K. Thabet Peter Vajda Amy Bearman Licheng Yu VGen DiffM 101 2 0 08 Feb 2024
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation Weiming Ren Harry Yang Ge Zhang Cong Wei Xinrun Du Stephen W. Huang Wenhu Chen DiffM VGen 126 66 0 06 Feb 2024
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Yang Jin Zhicheng Sun Kun Xu Kun Xu Liwei Chen ... Yuliang Liu Di Zhang Yang Song Kun Gai Yadong Mu VGen 113 51 0 05 Feb 2024
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions Yiyuan Zhang Yuhao Kang Zhixin Zhang Xiaohan Ding Sanyuan Zhao Xiangyu Yue VGen 93 4 0 05 Feb 2024
A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming Pengyuan Zhou Lin Wang Zhi Liu Yanbin Hao Pan Hui Sasu Tarkoma J. Kangasharju VGen 116 30 0 30 Jan 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 215 258 0 23 Jan 2024
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens Xiaofeng Wang Zheng Zhu Guan Huang Boyuan Wang Xinze Chen Jiwen Lu VGen 76 41 0 18 Jan 2024
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects Zhao Wang Aoxue Li Lingting Zhu Yong Guo Qi Dou Zhenguo Li VGen DiffM 104 44 0 18 Jan 2024
Vlogger: Make Your Dream A Vlog Shaobin Zhuang Kunchang Li Xinyuan Chen Yaohui Wang Ziwei Liu Yu Qiao Yali Wang VGen DiffM 83 39 0 17 Jan 2024
UniVG: Towards UNIfied-modal Video Generation Ludan Ruan Lei Tian Chuanwei Huang Xu Zhang Xinyan Xiao VGen DiffM 81 3 0 17 Jan 2024
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao-Liang Weng Ying Shan VGen DiffM 259 323 0 17 Jan 2024
ModaVerse: Efficiently Transforming Modalities with LLMs Xinyu Wang Bohan Zhuang Qi Wu 66 12 0 12 Jan 2024
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks Partha Ghosh Soubhik Sanyal Cordelia Schmid Bernhard Scholkopf VGen 69 1 0 11 Jan 2024
Object-Centric Diffusion for Efficient Video Editing Kumara Kahatapitiya Adil Karjauv Davide Abati Fatih Porikli Yuki M. Asano A. Habibian VGen 94 13 0 11 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Ziqiang Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 291 279 0 05 Jan 2024
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions David Junhao Zhang Dongxu Li Hung Le Mike Zheng Shou Caiming Xiong Doyen Sahoo VGen 81 25 0 03 Jan 2024
AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI Fanda Fan Chunjie Luo Wanling Gao Jianfeng Zhan 138 15 0 03 Jan 2024
FlashVideo: A Framework for Swift Inference in Text-to-Video Generation Bin Lei Le Chen Caiwen Ding VGen 35 2 0 30 Dec 2023
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang DiffM VGen 108 28 0 25 Dec 2023
VideoPoet: A Large Language Model for Zero-Shot Video Generation Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang ... Irfan Essa Huisheng Wang David A. Ross Bryan Seybold Lu Jiang VGen 152 273 0 21 Dec 2023
InstructVideo: Instructing Video Diffusion Models with Human Feedback Hangjie Yuan Shiwei Zhang Xiang Wang Yujie Wei Tao Feng Yining Pan Yingya Zhang Ziwei Liu Samuel Albanie Dong Ni VGen 114 46 0 19 Dec 2023