Title
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models Hu Yue Siyuan Huang Yue Liao Shengcong Chen Pengfei Zhou Liliang Chen Maoqing Yao Guanghui Ren VGen 29 0 0 14 May 2025
ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models Ozgur Kara Krishna Kumar Singh Feng Liu Duygu Ceylan James M. Rehg Tobias Hinz DiffM VGen 41 0 0 12 May 2025
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models Xuyang Guo Jiayan Huo Zhenmei Shi Zhao-quan Song Jiahao Zhang Jiale Zhao VGen 165 0 0 08 May 2025
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation Teng Hu Zhentao Yu Zhengguang Zhou Sen Liang Yuan Zhou Qin Lin Qinglin Lu DiffM VGen 57 0 0 07 May 2025
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization Wenchuan Wang Mengqi Huang Yijing Tu Zhendong Mao VGen 69 0 0 04 May 2025
FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis Jiangtong Tan Hu Yu Jie Huang Jie Xiao Feng Zhao 69 1 0 02 May 2025
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding Zongxia Li Xiyang Wu Yubin Qin Guangyao Shi Hongyang Du Dinesh Manocha Tianyi Zhou Jordan Boyd-Graber MLLM 57 0 0 02 May 2025
VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models Mohammadreza Teymoorianfard Shiqing Ma Amir Houmansadr WIGM 65 0 0 02 May 2025
Direct Motion Models for Assessing Generated Videos Kelsey R. Allen Carl Doersch Guangyao Zhou Mohammed Suhail Danny Driess ... Thomas Kipf Mehdi S. M. Sajjadi Kevin P. Murphy João Carreira Sjoerd van Steenkiste EGVM DiffM VGen 78 0 0 30 Apr 2025
SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding Chenkai Zhang Yiming Lei Z. Liu Haitao Leng Shaoguo Liu Tingting Gao Qingjie Liu Yunhong Wang AI4TS 53 0 0 30 Apr 2025
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback Minkyu Choi Sundar Sripada V. S. Harsh Goel Sahil Shah Sandeep P. Chinchali DiffM VGen 91 0 0 24 Apr 2025
Subject-driven Video Generation via Disentangled Identity and Motion Daneul Kim Jingxu Zhang W. Jin Sunghyun Cho Qi Dai Jaesik Park Chong Luo DiffM VGen 115 0 0 23 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 49 2 0 20 Apr 2025
Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis Jingjing Ren Wenbo Li Zhongdao Wang Haoze Sun Bangzhen Liu ... Aoxue Li Shifeng Zhang Bin Shao Yong Guo Lei Zhu VGen 43 0 0 20 Apr 2025
SkyReels-V2: Infinite-length Film Generative Model Guibin Chen D. Lin Jiangping Yang Chunze Lin J. Zhu ... Di Qiu Debang Li Zhengcong Fei Yang Li Yahui Zhou DiffM VGen 56 1 0 17 Apr 2025
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation Lvmin Zhang Maneesh Agrawala DiffM VGen 75 0 0 17 Apr 2025
Understanding Attention Mechanism in Video Diffusion Models Bingyan Liu Chengyu Wang Tongtong Su Huan Ten Jun Huang K. Guo Kui Jia VGen 64 0 0 16 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 76 0 0 16 Apr 2025
RealCam-Vid: High-resolution Video Dataset with Dynamic Scenes and Metric-scale Camera Movements Guangcong Zheng Teng Li Xianpan Zhou Xi Li VGen 3DV 69 1 0 11 Apr 2025
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos Rundong Luo Matthew Wallingford Ali Farhadi Noah Snavely Wei-Chiu Ma VGen 28 0 0 10 Apr 2025
Video-Bench: Human-Aligned Video Generation Benchmark Hui Han Siyuan Li Jiaqi Chen Yiwen Yuan Yuling Wu ... Y. Li J. Zhang Chi Zhang Li Li Yongxin Ni EGVM VGen 73 0 0 07 Apr 2025
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation Fa-Ting Hong Zunnan Xu Zixiang Zhou Zhiqiang Zhang Xiu Li Qin Lin Qinglin Lu D. Xu DiffM VGen 57 2 0 03 Apr 2025
VideoGen-Eval: Agent-based System for Video Generation Evaluation Yuhang Yang Ke Fan Shuifa Sun Hongxiang Li Ailing Zeng FeiLin Han Wei-dong Zhai Wei Liu Yang Cao Zheng-jun Zha EGVM VGen 78 0 0 30 Mar 2025
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models Prin Phunyaphibarn Phillip Y. Lee Jaihoon Kim Minhyuk Sung DiffM 89 0 0 26 Mar 2025
Training-free Diffusion Acceleration with Bottleneck Sampling Ye Tian Xin Xia Yuxi Ren Shanchuan Lin Xing Wang Xuefeng Xiao Yunhai Tong L. Yang Bin Cui 60 0 0 24 Mar 2025
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos Haolin Yang Feilong Tang Ming Hu Yulong Li Junjie Guo Yexin Liu Zelin Peng Junjun He Zongyuan Ge VGen DiffM 98 1 0 20 Mar 2025
Concat-ID: Towards Universal Identity-Preserving Video Synthesis Yong Zhong Zhuoyi Yang Jiayan Teng Xiaotao Gu Chongxuan Li VGen 63 0 0 18 Mar 2025
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? Yuanxin Liu Rui Zhu Shuhuai Ren Jiacong Wang Haoyuan Guo Xu Sun Lu Jiang 130 1 0 13 Mar 2025
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality Zhengyao Lv Chenyang Si Junhao Song Zhenyu Yang Yu Qiao Ziwei Liu Kwan-Yee K. Wong VGen DiffM 81 8 0 13 Mar 2025
Learning Few-Step Diffusion Models by Trajectory Distribution Matching Yihong Luo Tianyang Hu Jiacheng Sun Yujun Cai Jing Tang DiffM 82 1 0 13 Mar 2025
VACT: A Video Automatic Causal Testing System and a Benchmark Haotong Yang Qingyuan Zheng Yunjian Gao Yongkun Yang Yangbo He Zhouchen Lin Muhan Zhang VGen CML 59 0 0 08 Mar 2025
KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation Antoni Bigata Michał Stypułkowski Rodrigo Mira Stella Bounareli Konstantinos Vougioukas Zoe Landgraf Nikita Drobyshev Maciej Ziȩba Stavros Petridis M. Pantic DiffM VGen 65 2 0 03 Mar 2025
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation Wenhao Wang Y. Yang DiffM VGen 84 0 0 03 Mar 2025
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos Zhiyu Tan Junyan Wang Hao Yang Luozheng Qin Hesen Chen Qiang-feng Zhou Hao Li VGen 69 0 0 28 Feb 2025
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers D. She Mushui Liu Jingxuan Pang Jin Wang Zhen Yang ... Yi Wang Qihan Huang Haobin Tang Yunlong Yu Siming Fu VGen 96 4 0 21 Feb 2025
Accelerating Diffusion Transformers with Token-wise Feature Caching Chang Zou Xuyang Liu Ting Liu Siteng Huang Linfeng Zhang 54 14 0 20 Feb 2025
FreqPrior: Improving Video Diffusion Models with Frequency Filtering Gaussian Noise Yunlong Yuan Yuanfan Guo Chunwei Wang Wei Zhang Hang Xu L. Zhang DiffM VGen 117 1 0 20 Feb 2025
Learning Human Skill Generators at Key-Step Levels Yilu Wu Chenhui Zhu Shuai Wang Hanlin Wang Jing Wang Zhaoxiang Zhang Limin Wang VGen 116 0 0 12 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 117 7 0 10 Feb 2025
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile Hangliang Ding Dacheng Li Runlong Su Peiyuan Zhang Zhijie Deng Ion Stoica Hao Zhang VGen 70 4 0 10 Feb 2025
VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer Xinyu Liu Ailing Zeng Wei Xue Harry Yang Wenhan Luo Qifeng Liu Yike Guo VGen 169 0 0 09 Feb 2025
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction Yongfan Chen Xiuwen Zhu Tianyu Li EGVM VGen 56 3 0 08 Feb 2025
MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation Haibo Tong Zhaoyang Wang Zhuangzhuang Chen Haonian Ji Shi Qiu ... Peng Xia Mingyu Ding Rafael Rafailov Chelsea Finn Huaxiu Yao EGVM VGen 102 2 0 03 Feb 2025
VideoShield: Regulating Diffusion-based Video Generation Models via Watermarking Runyi Hu J. Zhang Y. Li Jiwei Li Qing-Wu Guo Han Qiu Tianwei Zhang WIGM VGen 79 4 0 24 Jan 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 89 19 0 21 Jan 2025
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding Yilun Zhao Lujing Xie Haowei Zhang Guo Gan Yitao Long ... Xiangru Tang Zhenwen Liang Y. Liu Chen Zhao Arman Cohan 53 5 0 21 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming Yang Sergey Tulyakov DiffM VGen 69 7 0 10 Jan 2025
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning Yuzhou Huang Ziyang Yuan Quande Liu Qiulin Wang Xintao Wang Ruimao Zhang Pengfei Wan Di Zhang Kun Gai VGen DiffM 37 10 0 08 Jan 2025
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration Wenhao Sun Rong-Cheng Tu Jingyi Liao Zhao Jin Dacheng Tao VGen 99 1 0 16 Dec 2024
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer Jiahao Cui Hui Li Yun Zhan Hanlin Shang K. Cheng Yuqi Ma Shan Mu Hang Zhou Jingdong Wang Siyu Zhu ViT VGen 102 6 0 01 Dec 2024