v1v2 (latest)

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 273 papers shown

Title
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction Jingcheng Ni Yuxin Guo Yichen Liu Rui Chen Lewei Lu Z. Wu DiffM VGen 144 5 0 17 Feb 2025
Diffusion Models without Classifier-free Guidance Zhicong Tang Jianmin Bao Dong Chen Baining Guo VLM 85 5 0 17 Feb 2025
A Reversible Solver for Diffusion SDEs Zander W. Blasingame Chen Liu DiffM 139 0 0 12 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 212 18 0 10 Feb 2025
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance Li Hu Guangyuan Wang Zhen Shen Xin Gao Dechao Meng Lian Zhuo Peng Zhang Bang Zhang Liefeng Bo DiffM VGen 186 19 0 10 Feb 2025
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction Yongfan Chen Xiuwen Zhu Tianyu Li EGVM VGen 183 3 0 08 Feb 2025
IPO: Iterative Preference Optimization for Text-to-Video Generation Xiaomeng Yang Zhiyu Tan Xuecheng Nie VGen 167 3 0 04 Feb 2025
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation Yang Cao Zhao Song Chiwun Yang VGen 170 3 0 01 Feb 2025
Consistent Video Colorization via Palette Guidance Han Wang Yuang Zhang Yuhong Zhang Lingxiao Lu Li Song DiffM VGen 136 0 0 31 Jan 2025
Accelerate High-Quality Diffusion Models with Inner Loop Feedback M. Gwilliam Han Cai Di Wu Abhinav Shrivastava Zhiyu Cheng 226 1 0 22 Jan 2025
SVIA: A Street View Image Anonymization Framework for Self-Driving Applications Dongyu Liu Xuhong Wang Cen Chen Yanhao Wang Shengyue Yao Yilun Lin 76 0 0 17 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming-Hsuan Yang Sergey Tulyakov DiffM VGen 194 13 0 10 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuzhao Li Zeliang Zhang Chenliang Xu VGen 167 7 0 08 Jan 2025
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning Yuzhou Huang Ziyang Yuan Quande Liu Qiulin Wang Xintao Wang Ruimao Zhang Pengfei Wan Di Zhang Kun Gai VGen DiffM 154 16 0 08 Jan 2025
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution Rui Xie Yinhong Liu Penghao Zhou Chen Zhao Jun Zhou Peng Sun Zhenru Zhang Jian Yang Zhiyong Yang Ying Tai VGen DiffM 112 7 0 06 Jan 2025
Towards Precise Scaling Laws for Video Diffusion Transformers Yuanyang Yin Yaqi Zhao Mingwu Zheng Ke Lin Jiarong Ou ... Pengfei Wan Di Zhang Baoqun Yin Wentao Zhang Kun Gai 201 3 0 03 Jan 2025
Inflationary Flows: Calibrated Bayesian Inference with Diffusion-Based Models Daniela de Albuquerque John Pearson DiffM 154 0 0 03 Jan 2025
Grid Diffusion Models for Text-to-Video Generation Taegyeong Lee Soyeong Kwon Taehwan Kim 157 8 0 31 Dec 2024
AKiRa: Augmentation Kit on Rays for optical video generation Xi Wang Robin Courant Marc Christie Vicky Kalogeiton VGen 209 4 0 31 Dec 2024
AdaDiff: Adaptive Step Selection for Fast Diffusion Models Hui Zhang Zuxuan Wu Zhen Xing Jie Shao Yu-Gang Jiang 149 13 0 31 Dec 2024
Edicho: Consistent Image Editing in the Wild Qingyan Bai Hao Ouyang Yinghao Xu Qiuyu Wang Ceyuan Yang Ka Leong Cheng Yujun Shen Qifeng Chen DiffM 178 1 0 30 Dec 2024
Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement H. Kim Jaejun Yoo 150 1 0 23 Dec 2024
VidTwin: Video VAE with Decoupled Structure and Dynamics Yuchi Wang Junliang Guo Xinyi Xie Tianyu He Xu Sun Li Zhao DRL VGen 163 5 0 23 Dec 2024
Enhancing Long Video Generation Consistency without Tuning Xingyao Li Fengzhuo Zhang Jiachun Pan Yunlong Hou Vincent Y. F. Tan Zhuoran Yang DiffM VGen 82 0 0 23 Dec 2024
Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation Luoxu Jin Hiroshi Watanabe DiffM VGen 262 0 0 22 Dec 2024
Wonderland: Navigating 3D Scenes from a Single Image Hanwen Liang Junli Cao Vidit Goel Guocheng Qian Sergei Korolev Demetri Terzopoulos Konstantinos N. Plataniotis Sergey Tulyakov Jian Ren VGen 212 14 0 16 Dec 2024
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models Rick Akkerman Haiwen Feng M. Black Dimitrios Tzionas Victoria Fernandez-Abrevaya VGen AI4CE 205 3 0 16 Dec 2024
Can video generation replace cinematographers? Research on the cinematic language of generated video Xuelong Li Kai WU Siyi Yang YiZhan Qu Guohua. Zhang ... Mingliang Xiong Hao Deng Qingwen Liu Gang Li Bin He VGen DiffM 180 1 0 16 Dec 2024
GenLit: Reformulating Single-Image Relighting as Video Generation Shrisha Bharadwaj Haiwen Feng Giorgio Becherini Victoria Fernandez-Abrevaya Michael J. Black VGen 161 2 0 15 Dec 2024
Video Diffusion Transformers are In-Context Learners Zhengcong Fei Di Qiu Changqian Yu Debang Li Mingyuan Fan VGen DiffM 423 3 0 14 Dec 2024
SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device Yushu Wu Zhixing Zhang Yanyu Li Yanwu Xu Anil Kag ... Ju Hu Dimitris N. Metaxas Yanzhi Wang Sergey Tulyakov Jian Ren VGen DiffM 165 5 0 13 Dec 2024
Mojito: Motion Trajectory and Intensity Control for Video Generation Xuehai He Shuohang Wang Jianwei Yang Xiaoxia Wu Yansen Wang Kuan-Chieh Wang Z. Zhan Olatunji Ruwase Yelong Shen Xinze Wang VGen 242 2 0 12 Dec 2024
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing Jinbin Bai Wei Chow L. Yang Hefei Ling Juncheng Billy Li Hao Zhang Shuicheng Yan 187 10 0 05 Dec 2024
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models Yifan Lu Xuanchi Ren Jiawei Yang Tianchang Shen Zhangjie Wu ... Yanjie Wang Siheng Chen Mike Chen Sanja Fidler Jiahui Huang VGen 193 9 0 05 Dec 2024
OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation Hui Li Mingwang Xu Yun Zhan Shan Mu Jiaye Li ... Yukang Chen Tan Chen Mao Ye Jingdong Wang Siyu Zhu VGen 217 7 0 28 Nov 2024
PCDreamer: Point Cloud Completion Through Multi-view Diffusion Priors Guangshun Wei Yuan Feng Long Ma Chen Wang Yuanfeng Zhou Changjian Li 570 0 0 28 Nov 2024
VideoDirector: Precise Video Editing via Text-to-Video Models Yukun Wang Longguang Wang Zhiyuan Ma Qibin Hu Kai Xu Yulan Guo VGen DiffM 228 0 0 26 Nov 2024
Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing Kaifeng Gao Jiaxin Shi Hanwang Zhang Chunping Wang Jun Xiao Long Chen VGen DiffM 211 4 0 25 Nov 2024
Sonic: Shifting Focus to Global Audio Perception in Portrait Animation Xiaozhong Ji Xiaobin Hu Zhihong Xu Junwei Zhu Chuming Lin ... Donghao Luo Yi Chen Qin Lin Qinglin Lu Chengjie Wang VGen 158 11 0 25 Nov 2024
MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation Weijia Wu Mingyu Liu Zeyu Zhu Xi Xia Haoen Feng Wen Wang Kevin Qinghong Lin Chunhua Shen Mike Zheng Shou DiffM VGen 230 3 0 22 Nov 2024
Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification S P Sharan Minkyu Choi Sahil Shah Harsh Goel Mohammad Omama Sandeep Chinchali EGVM 235 3 0 22 Nov 2024
SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input Zhen Lv Yangqi Long Congzhentao Huang Cao Li Chengfei Lv Hao Ren Dian Zheng DiffM VGen MDE 194 6 0 18 Nov 2024
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength Wanquan Feng Jiawei Liu Pengqi Tu Tianhao Qi Mingzhen Sun Tianxiang Ma Mingcong Liu Siyu Zhou Qian He VGen 173 10 0 10 Nov 2024
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration Panwen Hu Jin Jiang Jianqi Chen Mingfei Han Shengcai Liao Xiaojun Chang Xiaodan Liang VGen DiffM 128 6 0 07 Nov 2024
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 177 16 0 07 Nov 2024
Diffusion-based Generative Multicasting with Intent-aware Semantic Decomposition Xinkai Liu Mahdi Boloursaz Mashhadi Li Qiao Yi Ma Rahim Tafazolli Mehdi Bennis DiffM 100 2 0 04 Nov 2024
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior Hanyu Wang Saksham Suri Yixuan Ren Hao Chen Abhinav Shrivastava VGen 109 12 0 28 Oct 2024
GiVE: Guiding Visual Encoder to Perceive Overlooked Information Junjie Li Jianghong Ma Xiaofeng Zhang Yuhang Li Jianyang Shi 128 1 0 26 Oct 2024
MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications Yongrui Yu Yannian Gu Shanghang Zhang Xiaofan Zhang MedIm 123 2 0 20 Oct 2024
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation Guosheng Zhao Chaojun Ni Xiaofeng Wang Zheng Zhu Xinming Zhang ... Xinze Chen Boyuan Wang Youyi Zhang Wenjun Mei Xingang Wang VGen 174 32 0 17 Oct 2024