Title
ACT-R: Adaptive Camera Trajectories for 3D Reconstruction from Single Image Y. Wang Mingrui Zhao Ali Mahdavi Amiri Hao Zhang 23 0 0 13 May 2025
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction Qihao Liu Ju He Qihang Yu Liang-Chieh Chen Alan Yuille DiffM VGen 78 0 0 30 Apr 2025
Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis Michal Geyer Omer Tov Linyi Jin Richard Tucker Inbar Mosseri Tali Dekel Noah Snavely DiffM VGen 100 0 0 30 Apr 2025
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos Yuan Li Ziqian Bai Feitong Tan Zhaopeng Cui S. Fanello Yinda Zhang DiffM VGen 57 0 0 27 Apr 2025
NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration Haotian Dong X. Wang D. Lin Yipeng Wu Qin Chen R. Liu Kairui Yang Ping Li Qing-Wu Guo VGen 44 0 0 25 Apr 2025
Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion Evgeniia Vu Andrei Boiarov Dmitry Vetrov VGen 50 0 0 13 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 158 0 0 12 Mar 2025
Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models Ishaan Malhi Praneet Dutta Ellie Talius Sally Ma Brendan Driscoll Krista Holden G. Pruthi Arunachalam Narayanaswamy DiffM 53 0 0 11 Mar 2025
Generative Video Bi-flow Chen Liu Tobias Ritschel DiffM VGen 50 0 0 09 Mar 2025
FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video Yue Gao Hong-Xing Yu Bo Zhu Jiajun Wu VGen 61 1 0 06 Mar 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 77 0 0 18 Feb 2025
RAPID: Retrieval Augmented Training of Differentially Private Diffusion Models Tanqiu Jiang Changjiang Li Fenglong Ma Ting Wang 59 0 0 18 Feb 2025
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation Jinbo Xing Long Mai Cusuh Ham Jiahui Huang Aniruddha Mahapatra Chi-Wing Fu T. Wong Feng Liu DiffM VGen 124 2 0 06 Feb 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 181 11 0 03 Feb 2025
Block Flow: Learning Straight Flow on Data Blocks Zibin Wang Zhiyuan Ouyang Xiangyun Zhang 31 0 0 20 Jan 2025
Simplified and Generalized Masked Diffusion for Discrete Data Jiaxin Shi Kehang Han Z. Wang Arnaud Doucet Michalis K. Titsias DiffM 79 62 0 17 Jan 2025
Dynamic Negative Guidance of Diffusion Models Felix Koulischer Johannes Deleu G. Raya T. Demeester L. Ambrogioni DiffM 49 2 0 03 Jan 2025
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models Rick Akkerman Haiwen Feng M. Black Dimitrios Tzionas Victoria Fernandez-Abrevaya VGen AI4CE 105 3 0 16 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer H. Chen Z. Wang X. Li X. Sun Fangyi Chen Jiang Liu J. Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 111 6 0 14 Dec 2024
Navigation World Models Amir Bar G. Zhou Danny Tran Trevor Darrell Yann LeCun VGen EgoV 82 14 0 04 Dec 2024
Generative Omnimatte: Learning to Decompose Video into Layers Yao-Chih Lee Erika Lu Sarah Rumbley Michal Geyer Jia-Bin Huang Tali Dekel Forrester Cole DiffM VGen 98 4 0 25 Nov 2024
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength Wanquan Feng Jiawei Liu Pengqi Tu Tianhao Qi Mingzhen Sun Tianxiang Ma Songtao Zhao Siyu Zhou Qian He VGen 47 7 0 10 Nov 2024
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control Yujie Wei Shiwei Zhang Hangjie Yuan Xiang Wang Haonan Qiu ... F. Liu Zhizhong Huang Jiaxin Ye Yingya Zhang Hongming Shan DiffM VGen 72 14 0 17 Oct 2024
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark Wenhao Chai Enxin Song Y. Du Chenlin Meng Vashisht Madhavan Omer Bar-Tal Jeng-Neng Hwang Saining Xie Christopher D. Manning 3DV 82 25 0 04 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 51 23 0 03 Oct 2024
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation Xiaojuan Wang Boyang Zhou Brian L. Curless Ira Kemelmacher-Shlizerman Aleksander Holynski Steven M. Seitz DiffM 53 10 0 27 Aug 2024
DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework Zhifei Xie Daniel Tang Dingwei Tan Jacques Klein Tegawend F. Bissyand Saad Ezzini VGen 32 8 0 21 Aug 2024
Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation Liu He Yizhi Song Hejun Huang Pinxin Liu Yunlong Tang Daniel G. Aliaga Xin Zhou DiffM VGen 90 3 0 19 Aug 2024
Anchored Diffusion for Video Face Reenactment I. Kligvasser Regev Cohen G. Leifman Ehud Rivlin Michael Elad DiffM VGen 34 1 0 21 Jul 2024
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix Peng Dai Feitong Tan Qiangeng Xu David Futschik Ruofei Du S. Fanello Xiaojuan Qi Yinda Zhang VGen 25 4 0 29 Jun 2024
A3D: Does Diffusion Dream about 3D Alignment? Savva Ignatyev Nina Konovalova Daniil Selikhanovych Nikolay Patakin Nikolay Patakin ... Anton Konushin Peter Wonka Alexander Filippov Peter Wonka Evgeny Burnaev DiffM 60 0 0 21 Jun 2024
V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data Rotem Shalev-Arkushin Aharon Azulay Tavi Halperin Eitan Richardson Amit H. Bermano Ohad Fried DiffM 44 0 0 20 Jun 2024
WonderWorld: Interactive 3D Scene Generation from a Single Image Hong-Xing Yu Haoyi Duan Charles Herrmann William T. Freeman Jiajun Wu 3DGS VGen 47 38 0 13 Jun 2024
Temporally Consistent Object Editing in Videos using Extended Attention AmirHossein Zamani Amir G. Aghdam Tiberiu Popa Eugene Belilovsky DiffM 32 1 0 01 Jun 2024
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Shenyuan Gao Jiazhi Yang Li Chen Kashyap Chitta Yihang Qiu Andreas Geiger Jun Zhang Hongyang Li 65 75 0 27 May 2024
Images that Sound: Composing Images and Sounds on a Single Canvas Ziyang Chen Daniel Geng Andrew Owens DiffM 48 9 0 20 May 2024
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 125 13 0 25 Apr 2024
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li-xin Yuan Jiebo Luo VGen 78 33 0 07 Apr 2024
Video Editing via Factorized Diffusion Distillation Uriel Singer Amit Zohar Yuval Kirstain Shelly Sheynin Adam Polyak Devi Parikh Yaniv Taigman DiffM VGen 38 12 0 14 Mar 2024
Platypose: Calibrated Zero-Shot Multi-Hypothesis 3D Human Motion Estimation Paweł Antoni Pierzchlewicz Caio da Silva R. J. Cotton Fabian H. Sinz 30 0 0 10 Mar 2024
Classification Diffusion Models: Revitalizing Density Ratio Estimation Shahar Yadin Noam Elata T. Michaeli DiffM 37 1 0 15 Feb 2024
MEVG: Multi-event Video Generation with Text-to-Video Models Gyeongrok Oh Jaehwan Jeong Sieun Kim Wonmin Byeon Jinkyu Kim Sungwoong Kim Sangpil Kim VGen DiffM 35 20 0 07 Dec 2023
MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang VGen DiffM 30 10 0 29 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 158 1,012 0 25 Nov 2023
Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning Jiasheng Ye Zaixiang Zheng Yu Bao Lihua Qian Quanquan Gu DiffM 54 14 0 23 Aug 2023
A Text-guided Protein Design Framework Shengchao Liu Yanjing Li Zhuoxinran Li A. Gitter Yutao Zhu ... Arvind Ramanathan Chaowei Xiao Jian Tang Hongyu Guo Anima Anandkumar 65 61 0 09 Feb 2023
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 194 1,140 0 10 Sep 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 254 565 0 29 May 2022
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 342 1,588 0 10 Nov 2021