Title
Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity Yizhuo Lu Changde Du Chong Wang Xuanliu Zhu Liuyun Jiang Xujin Li Huiguang He VGen 125 4 0 20 Feb 2025
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching Yen-Siang Wu Chi-Pin Huang Fu-En Yang Yu-Jie Wang DiffM VGen 54 1 0 18 Feb 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 77 0 0 18 Feb 2025
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding Pingping Zhang Jinlong Li Kecheng Chen Meng Wang Long Xu Haoliang Li N. Sebe Sam Kwong Shiqi Wang VGen 129 3 0 17 Feb 2025
Phantom: Subject-consistent video generation via cross-modal alignment Lijie Liu Tianxiang Ma Bingchuan Li Zhuowei Chen Jiawei Liu Qian He Xinglong Wu Qian He Xinglong Wu DiffM VGen 52 5 0 16 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 117 7 0 10 Feb 2025
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction Yongfan Chen Xiuwen Zhu Tianyu Li EGVM VGen 56 3 0 08 Feb 2025
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM Yueying Zou Peipei Li Zekun Li Huaibo Huang Xing Cui Xuannan Liu Chenghanyu Zhang Ran He DeLMO 125 2 0 07 Feb 2025
IPO: Iterative Preference Optimization for Text-to-Video Generation Xiaomeng Yang Zhiyu Tan Xuecheng Nie VGen 106 1 0 04 Feb 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 183 11 0 03 Feb 2025
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation Yang Cao Zhao-quan Song Chiwun Yang VGen 46 2 0 01 Feb 2025
Diffusion Generative Modeling for Spatially Resolved Gene Expression Inference from Histology Images Sichen Zhu Yuchen Zhu Molei Tao Peng-Chao Qiu MedIm 33 1 0 28 Jan 2025
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation Zheng Chong Wenqing Zhang Shiyue Zhang Jun Zheng Xiao Dong Haoxiang Li Yiling Wu D. Jiang Xiaodan Liang DiffM 32 1 0 20 Jan 2025
Consistent estimation of generative model representations in the data kernel perspective space Aranyak Acharyya M. Trosset Carey E. Priebe Hayden Helm DiffM 65 3 0 20 Jan 2025
VideoAuteur: Towards Long Narrative Video Generation Junfei Xiao Feng Cheng Lu Qi Liangke Gui Jiepeng Cen Zhibei Ma Alan L. Yuille Lu Jiang VGen 58 2 0 10 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming Yang Sergey Tulyakov DiffM VGen 69 7 0 10 Jan 2025
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning Yuzhou Huang Ziyang Yuan Quande Liu Qiulin Wang Xintao Wang Ruimao Zhang Pengfei Wan Di Zhang Kun Gai VGen DiffM 39 10 0 08 Jan 2025
Towards Precise Scaling Laws for Video Diffusion Transformers Yuanyang Yin Yaqi Zhao Mingwu Zheng Ke Lin Jiarong Ou ... Pengfei Wan Di Zhang Baoqun Yin Wentao Zhang Kun Gai 124 2 0 03 Jan 2025
TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions Vriksha Srihari R. Bhavya Shruti Jayaraman V. Mary Anita Rajam DiffM VGen 32 0 0 02 Jan 2025
Deep Neural Networks and Brain Alignment: Brain Encoding and Decoding (Survey) S. Oota Zijiao Chen Manish Gupta R. Bapi G. Jobard F. Alexandre X. Hinaut 3DV AI4CE 49 11 0 31 Dec 2024
VidTwin: Video VAE with Decoupled Structure and Dynamics Yuchi Wang Junliang Guo Xinyi Xie Tianyu He Xu Sun Jiang Bian DRL VGen 77 3 0 23 Dec 2024
Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation Luoxu Jin Hiroshi Watanabe DiffM VGen 101 0 0 22 Dec 2024
Parallelized Autoregressive Visual Generation Yunhong Wang Shuhuai Ren Zhijie Lin Yujin Han Haoyuan Guo Zhenheng Yang Difan Zou Jiashi Feng Xihui Liu VGen 90 12 0 19 Dec 2024
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models Rick Akkerman Haiwen Feng M. Black Dimitrios Tzionas Victoria Fernandez-Abrevaya VGen AI4CE 105 3 0 16 Dec 2024
Mojito: Motion Trajectory and Intensity Control for Video Generation Xuehai He Shuohang Wang Jianwei Yang Xiaoxia Wu Yixuan Wang Kuan-Chieh Jackson Wang Z. Zhan Olatunji Ruwase Yelong Shen Qing Guo VGen 86 1 0 12 Dec 2024
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip H. S. Torr VLM ObjD 197 0 0 12 Dec 2024
SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion Ximing Xing Juncheng Hu Jing Zhang Dong Xu Qian Yu 89 1 0 11 Dec 2024
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale Baorui Ma Huachen Gao Haoge Deng Zhengxiong Luo Tiejun Huang Lulu Tang Xinlong Wang DiffM VGen 122 14 0 09 Dec 2024
PaintScene4D: Consistent 4D Scene Generation from Text Prompts Vinayak Gupta Yunze Man Yu-Xiong Wang VGen 83 0 0 05 Dec 2024
Progress-Aware Video Frame Captioning Zihui Xue Joungbin An Xitong Yang Kristen Grauman 100 1 0 03 Dec 2024
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer Jiahao Cui Hui Li Yun Zhan Hanlin Shang K. Cheng Yuqi Ma Shan Mu Hang Zhou Jingdong Wang Siyu Zhu ViT VGen 102 6 0 01 Dec 2024
PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation Qiyao Xue Xiangyu Yin Boyuan Yang Wei Gao DiffM VGen 80 9 0 30 Nov 2024
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 117 1 0 25 Nov 2024
SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input Zhen Lv Yangqi Long Congzhentao Huang Cao Li Chengfei Lv Hao Ren Dian Zheng DiffM VGen MDE 114 5 0 18 Nov 2024
Spider: Any-to-Many Multimodal LLM Jinxiang Lai Jie Zhang Jun Liu Jian Li Xiaocheng Lu Song Guo MLLM 66 2 0 14 Nov 2024
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength Wanquan Feng Jiawei Liu Pengqi Tu Tianhao Qi Mingzhen Sun Tianxiang Ma Mingcong Liu Siyu Zhou Qian He VGen 55 7 0 10 Nov 2024
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 62 13 0 07 Nov 2024
X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios Yichen Xie Chenfeng Xu C-T.John Peng Shuqi Zhao Nhat Ho Alexander T. Pham Mingyu Ding M. Tomizuka W. Zhan DiffM 41 2 0 02 Nov 2024
Investigating Memorization in Video Diffusion Models Cheng Chen Enhuai Liu Daochang Liu M. Shah Chang Xu VGen DiffM 78 1 0 29 Oct 2024
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation Zongyi Li Shujie Hu Shujie Liu Long Zhou Jeongsoo Choi Lingwei Meng Xun Guo J. Li H. Ling Furu Wei VGen DiffM 77 5 0 27 Oct 2024
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control Yujie Wei Shiwei Zhang Hangjie Yuan Xiang Wang Haonan Qiu ... F. Liu Zhizhong Huang Jiaxin Ye Yingya Zhang Hongming Shan DiffM VGen 72 14 0 17 Oct 2024
An Online Learning Approach to Prompt-based Selection of Generative Models Xiaoyan Hu Ho-fung Leung Farzan Farnia 38 2 0 17 Oct 2024
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free Ziyue Li Dinesh Manocha MoE 74 5 0 14 Oct 2024
VideoAgent: Self-Improving Video Generation Achint Soni Sreyas Venkataraman Abhranil Chandra Sebastian Fischmeister Percy Liang Bo Dai Sherry Yang LM&Ro VGen 58 7 0 14 Oct 2024
Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation Jiahao Cui Hui Li Yao Yao Hao Zhu Hanlin Shang Kaihui Cheng Hang Zhou Siyu Zhu Jingdong Wang DiffM VGen 43 22 0 10 Oct 2024
Pyramidal Flow Matching for Efficient Video Generative Modeling Yang Jin Zhicheng Sun Ningyuan Li Kun Xu K. Xu ... Nan Zhuang Quzhe Huang Yang Song Yadong Mu Zhouchen Lin VGen 66 65 0 08 Oct 2024
Elucidating the Design Choice of Probability Paths in Flow Matching for Forecasting S. H. Lim Yijin Wang Annan Yu Emma Hart Michael W. Mahoney Xiaoye S. Li N. Benjamin Erichson AI4TS 47 1 0 04 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 53 23 0 03 Oct 2024
Text2PDE: Latent Diffusion Models for Accessible Physics Simulation Anthony Y. Zhou Zijie Li Michael Schneier John R Buchanan Jr Amir Barati Farimani AI4CE DiffM 67 5 0 02 Oct 2024
Characterizing and Efficiently Accelerating Multimodal Generation Model Inference Yejin Lee Anna Y. Sun Basil Hosmer Bilge Acun Can Balioglu ... Ram Pasunuru Scott Yih Sravya Popuri Xing Liu Carole-Jean Wu 52 2 0 30 Sep 2024