Title
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing Yuren Cong Mengmeng Xu Christian Simon Shoufa Chen Jiawei Ren Yanping Xie Juan-Manuel Perez-Rua Bodo Rosenhahn Tao Xiang Sen He DiffM VGen 30 74 0 09 Oct 2023
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model Avamarie Brueggeman Andrea Madotto Zhaojiang Lin Tushar Nagarajan Matt Smith ... Peyman Heidari Yue Liu Kavya Srinet Babak Damavandi Anuj Kumar MLLM 34 93 0 27 Sep 2023
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator Hanzhuo Huang Yufan Feng Cheng Shi Lan Xu Jingyi Yu Sibei Yang DiffM VGen 23 64 0 25 Sep 2023
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER Mingzhen Sun Weining Wang Zihan Qin Jiahui Sun Si-Qing Chen Jiaheng Liu DiffM 32 3 0 23 Sep 2023
FreeU: Free Lunch in Diffusion U-Net Chenyang Si Ziqi Huang Yuming Jiang Ziwei Liu DiffM 42 132 0 20 Sep 2023
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving Xiaofeng Wang Zheng Hua Zhu Guan Huang Xinze Chen Jiagang Zhu Jiwen Lu VGen 22 148 0 18 Sep 2023
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion Yujin Jeong Won-Wha Ryoo Seunghyun Lee Dabin Seo Wonmin Byeon Sangpil Kim Jinkyu Kim DiffM 24 29 0 08 Sep 2023
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation Jiaxi Gu Shicong Wang Haoyu Zhao Tianyi Lu Xing Zhang Zuxuan Wu Songcen Xu Wei Zhang Yu-Gang Jiang Hang Xu DiffM VGen 39 43 0 07 Sep 2023
Diffusion on the Probability Simplex Griffin Floto Thorsteinn Jonsson Mihai Nica Scott Sanner Eric Zhengyu Zhu DiffM 32 7 0 05 Sep 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation Xin Li Wenqing Chu Ye Wu Weihang Yuan Fanglong Liu Qi Zhang Fu Li Haocheng Feng Errui Ding Jingdong Wang VGen 45 52 0 01 Sep 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani Xiaozhong Liu 78 31 0 27 Aug 2023
Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single Image Liao Shen Xingyi Li Huiqiang Sun Juewen Peng Ke Xian Zhiguo Cao Guo-Shing Lin DiffM 39 15 0 20 Aug 2023
MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance Ernie Chu Tzu-Hua Huang Shuohao Lin Jun-Cheng Chen DiffM VGen 34 13 0 19 Aug 2023
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing Ouyang Hao Qiuyu Wang Yuxi Xiao Qingyan Bai Juntao Zhang Kecheng Zheng Xiaowei Zhou Qifeng Chen Yujun Shen DiffM VGen 46 81 0 15 Aug 2023
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation Sadeep Jayasumana Daniel Glasner Srikumar Ramalingam Andreas Veit Ayan Chakrabarti Surinder Kumar DiffM 24 0 0 14 Aug 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 27 223 0 10 Aug 2023
MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text Junchen Zhu Huan Yang Wenjing Wang Huiguo He Zixi Tuo ... Wen-Huang Cheng Lianli Gao Jingkuan Song Jianlong Fu Jiebo Luo DiffM 30 6 0 31 Jul 2023
Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models Xin Yuan Linjie Li Jianfeng Wang Zhengyuan Yang Kevin Qinghong Lin Zicheng Liu Lijuan Wang DiffM 59 6 0 27 Jul 2023
VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet Zhihao Hu Dong Xu DiffM VGen 41 65 0 26 Jul 2023
Make-A-Volume: Leveraging Latent Diffusion Models for Cross-Modality 3D Brain MRI Synthesis Lingting Zhu Zeyue Xue Zhenchao Jin Xian Liu Jingzhen He Ziwei Liu Lequan Yu DiffM MedIm 29 33 0 19 Jul 2023
Flow Matching in Latent Space Quan Dao Hao Phung Binh Duc Nguyen Anh Tran 37 60 0 17 Jul 2023
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Dustin Podell Zion English Kyle Lacey A. Blattmann Tim Dockhorn Jonas Muller Joe Penna Robin Rombach 91 2,128 0 04 Jul 2023
Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation Tserendorj Adiya Jae Shin Yoon Jungeun Lee Sang-hyeon Kim Hwasup Lim DiffM 31 0 0 02 Jul 2023
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation Shuai Yang Yifan Zhou Ziwei Liu Chen Change Loy VGen DiffM 37 207 0 13 Jun 2023
VideoComposer: Compositional Video Synthesis with Motion Controllability Xiang Wang Hangjie Yuan Shiwei Zhang Dayou Chen Jiuniu Wang Yingya Zhang Yujun Shen Deli Zhao Jingren Zhou VGen DiffM 33 316 0 03 Jun 2023
Probabilistic Adaptation of Text-to-Video Models Mengjiao Yang Yilun Du Bo Dai Dale Schuurmans J. Tenenbaum Pieter Abbeel VGen DiffM 43 24 0 02 Jun 2023
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising Fu Lee Wang Wenshuo Chen Guanglu Song Han-Jia Ye Yu Liu Hongsheng Li VGen DiffM 45 88 0 29 May 2023
Towards Consistent Video Editing with Text-to-Image Diffusion Models Zicheng Zhang Bonan Li Xuecheng Nie Congying Han Tiande Guo Luoqi Liu DiffM 20 24 0 27 May 2023
GEST: the Graph of Events in Space and Time as a Common Representation between Vision and Language Mihai Masala Nicolae Cudlenco Traian Rebedea Marius Leordeanu 14 0 0 22 May 2023
SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models Ziyi Wu Jingyu Hu Wuyue Lu Igor Gilitschenski Animesh Garg DiffM OCL 36 44 0 18 May 2023
LDM3D: Latent Diffusion Model for 3D Gabriela Ben-Melech Stan Diana Wofk Scottie Fox Alex Redden Will Saxton ... Estelle Aflalo Shao-Yen Tseng Fabio Nonato Matthias Muller Vasudev Lal 22 44 0 18 May 2023
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts Yuyang Zhao Enze Xie Lanqing Hong Zhenguo Li G. Lee DiffM VGen 35 32 0 15 May 2023
Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation Zeyu Lu Chengyue Wu Xinyuan Chen Yaohui Wang Junlin Wu Yu Qiao Xihui Liu DiffM 29 15 0 24 Apr 2023
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models A. Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis 3DGS VGen 91 1,013 0 18 Apr 2023
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation Jie An Songyang Zhang Harry Yang Sonal Gupta Jia-Bin Huang Jiebo Luo Xiaoyue Yin DiffM VGen 32 106 0 17 Apr 2023
Diffusion Models as Masked Autoencoders Chen Wei K. Mangalam Po-Yao (Bernie) Huang Yanghao Li Haoqi Fan Hu Xu Huiyu Wang Cihang Xie Alan Yuille Christoph Feichtenhofer DiffM SyDa 36 48 0 06 Apr 2023
Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models Wen Wang Yan Jiang K. Xie Zide Liu Hao Chen Yue Cao Xinlong Wang Chunhua Shen DiffM VGen 34 112 0 30 Mar 2023
Consistent View Synthesis with Pose-Guided Diffusion Models Hung-Yu Tseng Qinbo Li Changil Kim Suhib Alsisan Jia-Bin Huang Johannes Kopf DiffM 37 101 0 30 Mar 2023
Your Diffusion Model is Secretly a Zero-Shot Classifier Alexander C. Li Mihir Prabhudesai Shivam Duggal Ellis L Brown Deepak Pathak DiffM VLM 55 225 0 28 Mar 2023
The Stable Signature: Rooting Watermarks in Latent Diffusion Models Pierre Fernandez Guillaume Couairon Hervé Jégou Matthijs Douze Teddy Furon WIGM 17 177 0 27 Mar 2023
Seer: Language Instructed Video Prediction with Latent Diffusion Models Xianfan Gu Chuan Wen Weirui Ye Jiaming Song Yang Gao DiffM VGen 21 40 0 27 Mar 2023
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion Sauradip Nag Xiatian Zhu Jiankang Deng Yi-Zhe Song Tao Xiang DiffM VGen 41 21 0 27 Mar 2023
Conditional Image-to-Video Generation with Latent Flow Diffusion Models Haomiao Ni Changhao Shi Kaican Li Sharon X. Huang Martin Renqiang Min VGen DiffM 21 164 0 24 Mar 2023
Data-driven multiscale modeling for correcting dynamical systems Karl Otness L. Zanna Joan Bruna AI4CE 39 6 0 24 Mar 2023
ReVersion: Diffusion-Based Relation Inversion from Images Ziqi Huang Tianxing Wu Yuming Jiang Kelvin C. K. Chan Ziwei Liu 39 65 0 23 Mar 2023
VideoXum: Cross-modal Visual and Textural Summarization of Videos Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao C. Ho Jiebo Luo 28 30 0 21 Mar 2023
Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models Lukas Höllein Ang Cao Andrew Owens Justin Johnson Matthias Nießner DiffM 38 177 0 21 Mar 2023
Video-P2P: Video Editing with Cross-attention Control Shaoteng Liu Yuechen Zhang Wenbo Li Zhe-nan Lin Jiaya Jia DiffM VGen 147 202 0 08 Mar 2023
DLT: Conditioned layout generation with Joint Discrete-Continuous Diffusion Layout Transformer Elad Levi Eli Brosh Mykola Mykhailych Meir Perez DiffM 50 16 0 07 Mar 2023
Towards Zero-Shot Functional Compositionality of Language Models Hangyeol Yu Myeongho Jeong Jamin Shin Hyeongdon Moon Juneyoung Park Seungtaek Choi 37 1 0 06 Mar 2023