Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation

23 November 2022

Papers citing "Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation"

34 / 34 papers shown

Title
Object-Centric Image to Video Generation with Language Guidance Angel Villar-Corrales Gjergj Plepi Sven Behnke DiffM VGen OCL 73 0 0 17 Feb 2025
HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment Lifan Jiang Boxi Wu Jiahui Zhang Xiaotong Guan Shuang Chen VGen 61 1 0 02 Feb 2025
Grid Diffusion Models for Text-to-Video Generation Taegyeong Lee Soyeong Kwon Taehwan Kim 54 5 0 31 Dec 2024
COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation Mingzhen Sun Weining Wang Xinxin Zhu Jing Liu VGen DiffM 31 0 0 02 Oct 2024
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 64 6 0 13 Aug 2024
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation Weixi Feng Jiachen Li Michael Stephen Saxon Tsu-jui Fu Wenhu Chen William Yang Wang EGVM VGen 36 9 0 12 Jun 2024
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos Xuehai He Weixi Feng Kaizhi Zheng Yujie Lu Wanrong Zhu ... Zhengyuan Yang Kevin Lin William Yang Wang Lijuan Wang Xin Eric Wang VGen LRM 38 12 0 12 Jun 2024
Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation Homanga Bharadhwaj Roozbeh Mottaghi Abhinav Gupta Shubham Tulsiani 3DPC 46 16 0 02 May 2024
TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models Haomiao Ni Bernhard Egger Suhas Lohit A. Cherian Ye Wang T. Koike-Akino S. X. Huang Tim K. Marks DiffM 37 12 0 25 Apr 2024
Reconstruct before Query: Continual Missing Modality Learning with Decomposed Prompt Collaboration Shu Zhao Xiaohan Zou Tan Yu Huijuan Xu 29 1 0 17 Mar 2024
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation Joseph Cho Fachrina Dewi Puspitasari Sheng Zheng Jingyao Zheng Lik-Hang Lee Tae-Ho Kim Choong Seon Hong Chaoning Zhang EGVM VGen 36 40 0 08 Mar 2024
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions Yiyuan Zhang Yuhao Kang Zhixin Zhang Xiaohan Ding Sanyuan Zhao Xiangyu Yue VGen 52 4 0 05 Feb 2024
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality Huy Q. Le Chu Myaet Thwal Yu Qiao Ye Lin Tun Minh N. H. Nguyen Choong Seon Hong Choong Seon Hong 60 4 0 25 Jan 2024
Vlogger: Make Your Dream A Vlog Shaobin Zhuang Kunchang Li Xinyuan Chen Yaohui Wang Ziwei Liu Yu Qiao Yali Wang VGen DiffM 30 34 0 17 Jan 2024
InstructVideo: Instructing Video Diffusion Models with Human Feedback Hangjie Yuan Shiwei Zhang Xiang Wang Yujie Wei Tao Feng Yining Pan Yingya Zhang Ziwei Liu Samuel Albanie Dong Ni VGen 24 42 0 19 Dec 2023
VBench: Comprehensive Benchmark Suite for Video Generative Models Ziqi Huang Yinan He Jiashuo Yu Fan Zhang Chenyang Si ... Xinyuan Chen Limin Wang Dahua Lin Yu Qiao Ziwei Liu VGen 64 347 0 29 Nov 2023
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning Rohit Girdhar Mannat Singh Andrew Brown Quentin Duval S. Azadi Sai Saketh Rambhatla Akbar Shah Xi Yin Devi Parikh Ishan Misra DiffM VGen 41 189 0 17 Nov 2023
A Survey on Video Diffusion Models Zhen Xing Qijun Feng Haoran Chen Qi Dai Hang-Rui Hu Hang Xu Zuxuan Wu Yu-Gang Jiang EGVM VGen 57 116 0 16 Oct 2023
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER Mingzhen Sun Weining Wang Zihan Qin Jiahui Sun Si-Qing Chen J. Liu DiffM 24 3 0 23 Sep 2023
SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing Qi Dai Hang-Rui Hu Zuxuan Wu Yu-Gang Jiang VGen DiffM 24 81 0 18 Aug 2023
Vision + Language Applications: A Survey Yutong Zhou N. Shimada VLM 30 5 0 24 May 2023
Text-guided 3D Human Generation from 2D Collections Tsu-jui Fu Wenhan Xiong Yixin Nie Jingyu Liu Barlas Ouguz William Yang Wang 39 1 0 23 May 2023
Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought Vaishnavi Himakunthala Andy Ouyang Daniel Philip Rose Ryan He Alex Mei Yujie Lu Chinmay Sonar Michael Stephen Saxon William Yang Wang MLLM LRM 29 2 0 23 May 2023
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models Jaewoong Lee Sang-Sub Jang Jaehyeong Jo Jaehong Yoon Yunji Kim Jin-Hwa Kim Jung-Woo Ha Sung Ju Hwang DiffM 32 4 0 04 Apr 2023
Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion Models Willi Menapace Aliaksandr Siarohin Stéphane Lathuilière Panos Achlioptas Vladislav Golyanik Sergey Tulyakov Elisa Ricci LM&Ro VGen DiffM 34 14 0 23 Mar 2023
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 100 110 0 23 Jun 2022
MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning Zhifeng Ma Hao Zhang Jie Liu HAI AI4CE 25 12 0 07 Jun 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 251 565 0 29 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,434 0 11 Nov 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 245 484 0 20 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,774 0 24 Feb 2021
Real-time Localized Photorealistic Video Style Transfer Xide Xia Tianfan Xue Wei-Sheng Lai Zheng Sun Abby Chang Brian Kulis Jiawen Chen 51 30 0 20 Oct 2020
Learning to Decompose and Disentangle Representations for Video Prediction Jun-Ting Hsieh Bingbin Liu De-An Huang Li Fei-Fei Juan Carlos Niebles DRL 138 305 0 11 Jun 2018
Imagine This! Scripts to Compositions to Videos Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi CoGe VGen 109 87 0 10 Apr 2018