Title
PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop Chenyu Li Oscar Michel Xichen Pan Sainan Liu Mike Roberts Saining Xie VGen 55 3 0 12 Mar 2025
Accelerating Diffusion Sampling via Exploiting Local Transition Coherence Shangwen Zhu Han Zhang Zhantao Yang Qianyu Peng Zhao Pu Haoran Wang Fan Cheng DiffM 48 0 0 12 Mar 2025
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder Yitian Zhang Long Mai Aniruddha Mahapatra David Bourgin Yicong Hong Jonah Casebeer Feng Liu Y. Fu DiffM VGen 56 0 0 11 Mar 2025
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion Lehan Yang Jincen Song Tianlong Wang Daiqing Qi Weili Shi Yuheng Liu Sheng Li DiffM VOS VGen 74 0 0 11 Mar 2025
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation Jing Wang Ao Ma Ke Cao Jun Zheng Zhanjie Zhang ... Yuhang Ma Bo Cheng Dawei Leng Yuhui Yin Xiaodan Liang VGen 92 3 0 11 Mar 2025
SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models Hesen Chen Junyan Wang Zhiyu Tan Hao Li 58 0 0 11 Mar 2025
VACE: All-in-One Video Creation and Editing Zeyinzi Jiang Zhen Han Chaojie Mao J. Zhang Yulin Pan Yu Liu DiffM VGen 56 5 0 10 Mar 2025
DreamRelation: Relation-Centric Video Customization Yujie Wei Shiwei Zhang Hangjie Yuan Biao Gong Longxiang Tang ... Haonan Qiu Hengjia Li Shuai Tan Yuyao Zhang Hongming Shan VGen 70 1 0 10 Mar 2025
Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching Zhen Zou Hu Yu Jie Xiao Feng Zhao 45 0 0 10 Mar 2025
From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers Jiacheng Liu Chang Zou Yuanhuiyi Lyu Junjie Chen Linfeng Zhang DiffM 63 1 0 10 Mar 2025
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion Mingzhen Sun Weining Wang Gen Li Jiawei Liu Jiahui Sun Wanquan Feng Shanshan Lao Siyu Zhou Qian He Jiaheng Liu DiffM VGen 84 3 0 10 Mar 2025
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing Jianxiong Gao Yichang Liu Baofeng Yang Jianfeng Feng Yanwei Fu VGen 63 1 0 10 Mar 2025
Automated Movie Generation via Multi-Agent CoT Planning Weijia Wu Zeyu Zhu Mike Zheng Shou VGen 80 2 0 10 Mar 2025
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation Hritik Bansal Clark Peng Yonatan Bitton Roman Goldenberg Aditya Grover Kai-Wei Chang EGVM VGen 57 2 0 09 Mar 2025
Text2Story: Advancing Video Storytelling with Text Guidance Taewon Kang D. Kothandaraman Ming C. Lin DiffM VGen 59 0 0 08 Mar 2025
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation Runze Zhang Guoguang Du Xiaochuan Li Qi Jia Liang Jin ... Zhenhua Guo Yaqian Zhao Xiaoli Gong Rengang Li Baoyu Fan VGen 75 0 0 08 Mar 2025
Get In Video: Add Anything You Want to the Video Shaobin Zhuang Zhipeng Huang Binxin Yang Ying Zhang Fangyikang Wang Canmiao Fu Chong Sun Zheng-Jun Zha Chen Li Yijiao Wang DiffM VGen 56 1 0 08 Mar 2025
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control Hao Wang Zhaoyang Zhang Xuan Ju Mingdeng Cao Liangbin Xie Ying Shan Qiang Xu VGen DiffM 73 1 0 07 Mar 2025
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice Hongwei Yi Tian Ye Shitong Shao Xuancheng Yang Jiantong Zhao ... Zeke Xie Lei Zhu Wei Li Michael Lingelbach Daquan Zhou VGen 52 1 0 07 Mar 2025
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models Mark YU Wenbo Hu Jinbo Xing Ying Shan VGen 90 3 0 07 Mar 2025
FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video Yue Gao Hong-Xing Yu Bo Zhu Jiajun Wu VGen 69 1 0 06 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 95 0 0 06 Mar 2025
Predicting Team Performance from Communications in Simulated Search-and-Rescue Ali Jalal-Kamali Nikolos Gurney David Pynadath AI4TS 116 0 0 05 Mar 2025
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation Wenhao Wang Yuqing Yang DiffM VGen 89 0 0 03 Mar 2025
Learning to Animate Images from A Few Videos to Portray Delicate Human Actions Haoxin Li Yingchen Yu Qilong Wu Hanwang Zhang Boyang Li Song Bai 3DH VGen 174 0 0 01 Mar 2025
WorldModelBench: Judging Video Generation Models As World Models Dacheng Li Yunhao Fang Yukang Chen Shuo Yang Shiyi Cao ... Hongxu Yin Joseph E. Gonzalez Ion Stoica Enze Xie Yunfan LU VGen 60 4 0 28 Feb 2025
Training-free and Adaptive Sparse Attention for Efficient Long Video Generation Yifei Xia Suhan Ling Fangcheng Fu Yijiao Wang Huixia Li Xuefeng Xiao Bin Cui VGen 65 2 0 28 Feb 2025
High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion Model Mingtao Guo Guanyu Xing Yanli Liu DiffM VGen 68 0 0 27 Feb 2025
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute Sotiris Anagnostidis Gregor Bachmann Yeongmin Kim Jonas Kohler Markos Georgopoulos A. Sanakoyeu Yuming Du Albert Pumarola Ali K. Thabet Edgar Schönfeld 92 0 0 27 Feb 2025
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing Xiangpeng Yang Linchao Zhu Hehe Fan Yi Yang DiffM VGen 49 5 0 24 Feb 2025
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers D. She Mushui Liu Jingxuan Pang Jin Wang Zhen Yang ... Yi Wang Qihan Huang Haobin Tang YunLong Yu Siming Fu VGen 96 4 0 21 Feb 2025
Dynamic Concepts Personalization from Single Videos Rameen Abdal Or Patashnik Ivan Skorokhodov Willi Menapace Aliaksandr Siarohin Sergey Tulyakov Daniel Cohen-Or Kfir Aberman DiffM VGen 45 0 0 21 Feb 2025
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers Min Zhao Guande He Yixiao Chen Hongzhou Zhu Chong Li Jun Zhu VGen 69 6 0 21 Feb 2025
LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation Junchen Fu Xuri Ge Kaiwen Zheng Ioannis Arapakis Xin Xin J. Jose 87 1 0 20 Feb 2025
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching Yen-Siang Wu Chi-Pin Huang Fu-En Yang Yu-Jie Wang DiffM VGen 54 1 0 18 Feb 2025
Phantom: Subject-consistent video generation via cross-modal alignment Lijie Liu Tianxiang Ma Bingchuan Li Zhuowei Chen Jiawei Liu Qian He Xinglong Wu Qian He Xinglong Wu DiffM VGen 52 5 0 16 Feb 2025
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model Guoqing Ma Haoyang Huang K. Yan L. Chen Nan Duan ... Yansen Wang Yuanwei Lu Yu-Cheng Chen Yu-Juan Luo Y. Luo DiffM VGen 175 18 0 14 Feb 2025
Learning Human Skill Generators at Key-Step Levels Yilu Wu Chenhui Zhu Shuai Wang Hanlin Wang Jing Wang Zhaoxiang Zhang Limin Wang VGen 119 0 0 12 Feb 2025
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models Zhenxing Mi Kuan-Chieh Jackson Wang Guocheng Qian Hanrong Ye Runtao Liu Sergey Tulyakov Kfir Aberman Dan Xu LRM 47 0 0 12 Feb 2025
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile Hangliang Ding Dacheng Li Runlong Su Peiyuan Zhang Zhijie Deng Ion Stoica Hao Zhang VGen 73 4 0 10 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 117 7 0 10 Feb 2025
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation Jinbo Xing Long Mai Cusuh Ham Jiahui Huang Aniruddha Mahapatra Chi-Wing Fu T. Wong Feng Liu DiffM VGen 130 2 0 06 Feb 2025
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach Yunuo Chen Junli Cao Anil Kag Vidit Goel Sergei Korolev Chenfanfu Jiang Sergey Tulyakov Jian Ren DiffM VGen 90 1 0 05 Feb 2025
IPO: Iterative Preference Optimization for Text-to-Video Generation Xiaomeng Yang Zhiyu Tan Xuecheng Nie VGen 109 1 0 04 Feb 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 185 12 0 03 Feb 2025
Consistent Video Colorization via Palette Guidance Han Wang Yuang Zhang Yuhong Zhang Lingxiao Lu Li-Na Song DiffM VGen 88 0 0 31 Jan 2025
Improving Video Generation with Human Feedback Jie Liu Gongye Liu Jiajun Liang Ziyang Yuan Xiaokun Liu ... Pengfei Wan Di Zhang Kun Gai Yujiu Yang Wanli Ouyang VGen EGVM 64 13 0 23 Jan 2025
Parameter-Efficient Fine-Tuning for Foundation Models Dan Zhang Tao Feng Lilong Xue Yuandong Wang Yuxiao Dong J. Tang 46 8 0 23 Jan 2025
3D Object Manipulation in a Single Image using Generative Models Ruisi Zhao Zechuan Zhang Zongxin Yang Yi Yang 40 1 0 22 Jan 2025
Towards Affordance-Aware Articulation Synthesis for Rigged Objects Yu-Chu Yu C. Lin Hsin-Ying Lee Chaoyang Wang Yansen Wang Ming Yang DiffM AI4CE 46 0 0 21 Jan 2025