StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

21 March 2024

Papers citing "StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text"

50 / 64 papers shown

Title
STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives Bo Wang Haoyang Huang Zhiyin Lu F. Liu Guoqing Ma Jianlong Yuan Y. Zhang Nan Duan VGen 29 0 0 13 May 2025
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation Lvmin Zhang Maneesh Agrawala DiffM VGen 75 0 0 17 Apr 2025
WORLDMEM: Long-term Consistent World Simulation with Memory Zeqi Xiao Yushi Lan Yifan Zhou Wenqi Ouyang Shuai Yang Yanhong Zeng Xingang Pan 73 0 0 16 Apr 2025
One-Minute Video Generation with Test-Time Training Karan Dalal Daniel Koceja Gashon Hussein Jiarui Xu Yue Zhao ... Tatsunori Hashimoto Sanmi Koyejo Yejin Choi Yu Sun Xiaolong Wang ViT 91 3 0 07 Apr 2025
SkyReels-A2: Compose Anything in Video Diffusion Transformers Zhengcong Fei D. Li Di Qiu J. Wang Yikun Dou ... J. Xu Mingyuan Fan Guibin Chen Yang Li Yahui Zhou DiffM VGen 68 2 0 03 Apr 2025
LongDiff: Training-Free Long Video Generation in One Go Zhuoling Li Hossein Rahmani Qiuhong Ke J. Liu DiffM VGen VLM 61 0 0 23 Mar 2025
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks Bhishma Dedhia David Bourgin Krishna Kumar Singh Yuheng Li Yan Kang Zhan Xu N. Jha Y. Liu DiffM VGen 72 0 0 21 Mar 2025
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos Haolin Yang Feilong Tang Ming Hu Yulong Li Junjie Guo Yexin Liu Zelin Peng Junjun He Zongyuan Ge VGen DiffM 98 1 0 20 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Y. Wang Shengqiong Wu Y. Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 92 8 0 16 Mar 2025
VideoMerge: Towards Training-free Long Video Generation Siyang Zhang Harry Yang Ser-Nam Lim DiffM VGen 50 0 0 13 Mar 2025
Long Context Tuning for Video Generation Yuwei Guo Ceyuan Yang Ziyan Yang Zhibei Ma Zhijie Lin Zhenheng Yang Dahua Lin Lu Jiang DiffM VGen 74 2 0 13 Mar 2025
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework Jing Wang Fengzhuo Zhang Xiaoli Li Vincent Y. F. Tan Tianyu Pang Chao Du Aixin Sun Zhuoran Yang VGen 61 1 0 12 Mar 2025
Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments Soonwoo Kwon Jin-Young Kim Hyojun Go Kyungjune Baek 53 0 0 11 Mar 2025
Text2Story: Advancing Video Storytelling with Text Guidance Taewon Kang D. Kothandaraman Ming C. Lin DiffM VGen 59 0 0 08 Mar 2025
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control Xuanchi Ren Tianchang Shen Jiahui Huang Huan Ling Yifan Lu Merlin Nimier-David Thomas Muller Alexander Keller Sanja Fidler Jun Gao DiffM VGen 74 8 0 05 Mar 2025
Learning to Animate Images from A Few Videos to Portray Delicate Human Actions Haoxin Li Yingchen Yu Qilong Wu Hanwang Zhang Boyang Li Song Bai 3DH VGen 141 0 0 01 Mar 2025
Glad: A Streaming Scene Generator for Autonomous Driving Bin Xie Yingfei Liu Tiancai Wang Jiale Cao X. Zhang 3DGS VGen 51 1 0 26 Feb 2025
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction Jingcheng Ni Yuxin Guo Yichen Liu Rui Chen Lewei Lu Z. Wu DiffM VGen 67 3 0 17 Feb 2025
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile Hangliang Ding Dacheng Li Runlong Su Peiyuan Zhang Zhijie Deng Ion Stoica Hao Zhang VGen 70 4 0 10 Feb 2025
Towards Precise Scaling Laws for Video Diffusion Transformers Yuanyang Yin Yaqi Zhao Mingwu Zheng Ke Lin Jiarong Ou ... Pengfei Wan Di Zhang Baoqun Yin Wentao Zhang Kun Gai 124 2 0 03 Jan 2025
Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory Xingyao Li Fengzhuo Zhang Jiachun Pan Yunlong Hou Vincent Y. F. Tan Zhuoran Yang DiffM VGen 42 0 0 23 Dec 2024
Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation Yiping Wang Xuehai He Kuan-Chieh Jackson Wang Luyao Ma Jianwei Yang Shuohang Wang Simon S. Du Yelong Shen VGen 93 2 0 17 Dec 2024
Video Diffusion Transformers are In-Context Learners Zhengcong Fei Di Qiu Changqian Yu Debang Li Mingyuan Fan VGen DiffM 190 2 0 14 Dec 2024
Owl-1: Omni World Model for Consistent Long Video Generation Yuanhui Huang Wenzhao Zheng Yuan Gao Xin Tao Pengfei Wan Di Zhang Jie Zhou Jiwen Lu VGen VLM 87 0 0 12 Dec 2024
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models Tianwei Yin Qiang Zhang Richard Zhang William T. Freeman F. Durand Eli Shechtman Xun Huang VGen DiffM 81 11 0 10 Dec 2024
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models Yizhuo Li Yuying Ge Yixiao Ge Ping Luo Ying Shan DiffM VGen 95 0 0 05 Dec 2024
MatchDiffusion: Training-free Generation of Match-cuts Alejandro Pardo Fabio Pizzati Tong Zhang Alexander Pondaven Philip H. S. Torr Juan C. Pérez Bernard Ghanem DiffM VGen 75 1 0 27 Nov 2024
Scene Co-pilot: Procedural Text to Video Generation with Human in the Loop Zhaofang Qian Abolfazl Sharifi Tucker Carroll Ser-Nam Lim VGen 74 0 0 26 Nov 2024
Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing Kaifeng Gao Jiaxin Shi Hanwang Zhang Chunping Wang Jun Xiao Long Chen DiffM VGen 98 0 0 25 Nov 2024
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 117 1 0 25 Nov 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 63 1 0 12 Nov 2024
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation Zongyi Li Shujie Hu Shujie Liu Long Zhou Jeongsoo Choi Lingwei Meng Xun Guo J. Li H. Ling Furu Wei VGen DiffM 77 5 0 27 Oct 2024
Depth Any Video with Scalable Synthetic Data Honghui Yang Di Huang Wei Yin Chunhua Shen Haifeng Liu Xiaofei He Binbin Lin Wanli Ouyang Tong He VGen MDE 29 16 0 14 Oct 2024
Asymptotic Analysis of Sample-averaged Q-learning Saunak Kumar Panda Ruiqi Liu Yisha Xiang OnRL 61 8 0 14 Oct 2024
Progressive Autoregressive Video Diffusion Models Desai Xie Zhan Xu Yicong Hong Hao Tan Difan Liu Feng Liu Arie E. Kaufman Yang Zhou VGen DiffM 58 10 0 10 Oct 2024
Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation Jiahao Cui Hui Li Yao Yao Hao Zhu Hanlin Shang Kaihui Cheng Hang Zhou Siyu Zhu Jingdong Wang DiffM VGen 40 22 0 10 Oct 2024
Animating the Past: Reconstruct Trilobite via Video Generation Xiaoran Wu Zien Huang Chonghan Yu VGen 47 1 0 10 Oct 2024
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach Yaofang Liu Y. Ren Xiaodong Cun Aitor Artola Yang Liu Tieyong Zeng Raymond H. Chan Jean-Michel Morel VGen DiffM 53 2 0 04 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 51 23 0 03 Oct 2024
T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition Chen Yeh You-Ming Chang Wei-Chen Chiu Ning Yu 43 1 0 29 Sep 2024
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond Hong Chen Xin Wang Yuwei Zhou Bin Huang Yipeng Zhang Wei Feng Houlun Chen Zeyang Zhang Siao Tang Wenwu Zhu DiffM 52 7 0 23 Sep 2024
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes Jianbiao Mei Yukai Ma Xuemeng Yang Licheng Wen Tiantian Wei Min Dou Yukai Ma Min Dou Botian Shi Yong Liu DiffM VGen 67 3 0 06 Sep 2024
TrackGo: A Flexible and Efficient Method for Controllable Video Generation Haitao Zhou Chuang Wang Rui Nie Jinxiao Lin Dongdong Yu Qian Yu Changhu Wang VGen DiffM 46 14 0 21 Aug 2024
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions Xiaowei Chi Yatian Wang Aosong Cheng Pengjun Fang Zeyue Tian ... Wenhan Luo Qifeng Chen Shanghang Zhang Qi-fei Liu Yi-Ting Guo 72 7 0 30 Jul 2024
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention Yu Lu Yuanzhi Liang Linchao Zhu Yi Yang DiffM VGen 41 27 0 29 Jul 2024
Evaluation of Text-to-Video Generation Models: A Dynamics Perspective Mingxiang Liao Hannan Lu Xinyu Zhang Fang Wan Tianyu Wang Yuzhong Zhao W. Zuo Qixiang Ye Jingdong Wang VGen EGVM 61 17 0 01 Jul 2024
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models Haonan Qiu Zhaoxi Chen Zhouxia Wang Yingqing He Menghan Xia Ziwei Liu VGen DiffM 39 17 0 24 Jun 2024
Video-Infinity: Distributed Long Video Generation Zhenxiong Tan Xingyi Yang Songhua Liu Xinchao Wang VGen 37 19 0 24 Jun 2024
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation Xuan He Dongfu Jiang Ge Zhang Max W.F. Ku Achint Soni ... Yaswanth Narsupalli Rongqi Fan Zhiheng Lyu Yuchen Lin Wenhu Chen EGVM VGen ALM 48 42 0 21 Jun 2024
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models Kaifeng Gao Jiaxin Shi Hanwang Zhang Chunping Wang Jun Xiao DiffM VGen 67 12 0 16 Jun 2024