v1v2v3 (latest)

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

30 March 2023

Hao Chen

Chunhua Shen

ArXiv (abs)PDF HTML Github (352★)

Papers citing "Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models"

41 / 41 papers shown

Title
V-Trans4Style: Visual Transition Recommendation for Video Production Style Adaptation P. Guhan Tsung-Wei Huang Guan-Ming Su Subhadra Gopalakrishnan Dinesh Manocha VGen 92 0 0 14 Jan 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan Xianrui Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming-Hsuan Yang VLM 154 25 0 07 Jan 2025
Looking Backward: Streaming Video-to-Video Translation with Feature Banks Feng Liang Akio Kodaira Chenfeng Xu Masayoshi Tomizuka Kurt Keutzer Diana Marculescu DiffM VGen 128 9 0 24 May 2024
RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing Shutong Jin Ruiyu Wang Florian T. Pokorny DiffM VGen 128 1 0 19 Dec 2023
Pix2Video: Video Editing using Image Diffusion Duygu Ceylan C. Huang Niloy J. Mitra DiffM VGen 82 260 0 22 Mar 2023
Video-P2P: Video Editing with Cross-attention Control Shaoteng Liu Yuechen Zhang Wenbo Li Zhe Lin Jiaya Jia DiffM VGen 190 217 0 08 Mar 2023
Dreamix: Video Diffusion Models are General Video Editors Eyal Molad Eliahu Horwitz Dani Valevski Alex Rav-Acha Yossi Matias Yael Pritch Yaniv Leviathan Yedid Hoshen DiffM VGen 122 187 0 02 Feb 2023
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Jay Zhangjie Wu Yixiao Ge Xintao Wang Weixian Lei Yuchao Gu Yufei Shi Wynne Hsu Ying Shan Xiaohu Qie Mike Zheng Shou VGen 116 737 0 22 Dec 2022
DiffEdit: Diffusion-based semantic image editing with mask guidance Guillaume Couairon Jakob Verbeek Holger Schwenk Matthieu Cord DiffM 143 507 0 20 Oct 2022
Token Merging: Your ViT But Faster Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman MoMe 108 458 0 17 Oct 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 127 394 0 05 Oct 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 81 1,421 0 29 Sep 2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman 279 2,885 0 25 Aug 2022
Prompt-to-Prompt Image Editing with Cross Attention Control Amir Hertz Ron Mokady J. Tenenbaum Kfir Aberman Yael Pritch Daniel Cohen-Or DiffM 200 1,773 0 02 Aug 2022
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 193 3,898 0 26 Jul 2022
Learning Graph Neural Networks for Image Style Transfer Yongcheng Jing Yining Mao Yiding Yang Yibing Zhan Xiuming Zhang Xinchao Wang Dacheng Tao 87 56 0 24 Jul 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 311 627 0 29 May 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 410 6,897 0 13 Apr 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 204 1,626 0 07 Apr 2022
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 75 296 0 24 Nov 2021
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 484 1,645 0 10 Nov 2021
EditGAN: High-Precision Semantic Image Editing Huan Ling Karsten Kreis Daiqing Li Seung Wook Kim Antonio Torralba Sanja Fidler DiffM GAN 56 203 0 04 Nov 2021
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing Pengfei Liu Weizhe Yuan Jinlan Fu Zhengbao Jiang Hiroaki Hayashi Graham Neubig VLM SyDa 218 3,977 0 28 Jul 2021
Variational Diffusion Models Diederik P. Kingma Tim Salimans Ben Poole Jonathan Ho DiffM 181 1,130 0 01 Jul 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 241 7,933 0 11 May 2021
GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan DiffM VGen 77 242 0 30 Apr 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 148 1,582 0 18 Apr 2021
ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement Yuval Alaluf Or Patashnik Daniel Cohen-Or 100 347 0 06 Apr 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 225 2,163 0 29 Mar 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 530 3,724 0 24 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 418 4,987 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 389 2,061 0 09 Feb 2021
Designing an Encoder for StyleGAN Image Manipulation Omer Tov Yuval Alaluf Yotam Nitzan Or Patashnik Daniel Cohen-Or 287 787 0 04 Feb 2021
Score-Based Generative Modeling through Stochastic Differential Equations Yang Song Jascha Narain Sohl-Dickstein Diederik P. Kingma Abhishek Kumar Stefano Ermon Ben Poole DiffM SyDa 347 6,551 0 26 Nov 2020
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 286 7,454 0 06 Oct 2020
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation Elad Richardson Yuval Alaluf Or Patashnik Yotam Nitzan Yaniv Azar Stav Shapiro Daniel Cohen-Or 138 1,108 0 03 Aug 2020
Improved Techniques for Training Score-Based Generative Models Yang Song Stefano Ermon DiffM 258 1,161 0 16 Jun 2020
Axial Attention in Multidimensional Transformers Jonathan Ho Nal Kalchbrenner Dirk Weissenborn Tim Salimans 110 533 0 20 Dec 2019
Analyzing and Improving the Image Quality of StyleGAN Tero Karras S. Laine M. Aittala Janne Hellsten J. Lehtinen Timo Aila GAN 306 5,823 0 03 Dec 2019
Dynamic Instance Normalization for Arbitrary Style Transfer Yongcheng Jing Xinyu Liu Yukang Ding Xinchao Wang Errui Ding Xiuming Zhang Shilei Wen 118 193 0 16 Nov 2019
Stroke Controllable Fast Style Transfer with Adaptive Receptive Fields Yongcheng Jing Yang Liu Yezhou Yang Zunlei Feng Yizhou Yu Dacheng Tao Xiuming Zhang 78 118 0 20 Feb 2018