v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

17 November 2022

Aleksander Holynski

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,418 papers shown

Title
InNeRF360: Text-Guided 3D-Consistent Object Inpainting on 360-degree Neural Radiance Fields Dongqing Wang Tong Zhang Alaa Abboud Sabine Süsstrunk 78 12 0 24 May 2023
ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space Manipulation Dongxu Yue Qin Guo Munan Ning Jiaxi Cui Yuesheng Zhu Liuliang Yuan DiffM 83 13 0 24 May 2023
I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors Tuhin Chakrabarty Arkadiy Saakyan Olivia Winn Artemis Panagopoulou Yue Yang Marianna Apidianaki Smaranda Muresan DiffM 76 44 0 24 May 2023
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing Dongxu Li Junnan Li Steven C. H. Hoi 105 331 0 24 May 2023
Vision + Language Applications: A Survey Yutong Zhou N. Shimada VLM 117 7 0 24 May 2023
Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach Harman Singh Poorva Garg M. Gupta Kevin Shah Ashish Goswami A. Mondal Arnab Kumar Mondal Dinesh Khandelwal Dinesh Garg Parag Singla LM&Ro 30 1 0 23 May 2023
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation Susung Hong Junyoung Seo Heeseong Shin Sung‐Jin Hong Seung Wook Kim DiffM VGen 106 36 0 23 May 2023
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models Weifeng Chen Yatai Ji Jie Wu Hefeng Wu Pan Xie Jiashi Li Xin Xia Xuefeng Xiao Liang Lin VGen 208 11 0 23 May 2023
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models Long Lian Boyi Li Adam Yala Trevor Darrell 106 164 0 23 May 2023
Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration Qifan Yu Juncheng Li Wentao Ye Siliang Tang Yueting Zhuang 70 14 0 22 May 2023
The CLIP Model is Secretly an Image-to-Prompt Converter Yuxuan Ding Chunna Tian Haoxuan Ding Lingqiao Liu DiffM 59 15 0 22 May 2023
Guided Motion Diffusion for Controllable Human Motion Synthesis Korrawe Karunratanakul Konpat Preechakul Supasorn Suwajanakorn Siyu Tang DiffM 118 134 0 21 May 2023
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions Bosheng Qin Juncheng Li Siliang Tang Tat-Seng Chua Yueting Zhuang VGen DiffM 78 17 0 21 May 2023
Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models Byungjun Kim Patrick Kwon K. Lee Myunggi Lee Sookwan Han Daesik Kim Hanbyul Joo DiffM 83 20 0 19 May 2023
RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent Geometry and Texture Liangchen Song Liangliang Cao Hongyu Xu Kai Kang Feng Tang Junsong Yuan Yang Zhao VGen DiffM 85 44 0 18 May 2023
LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation Yujie Lu Xianjun Yang Xiujun Li Xinze Wang William Yang Wang EGVM 143 79 0 18 May 2023
DiffUTE: Universal Text Editing Diffusion Model Haoxing Chen Zhuoer Xu Zhangxuan Gu Jun Lan Xing Zheng Yaohui Li Changhua Meng Huijia Zhu Weiqiang Wang DiffM 102 35 0 18 May 2023
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models Songwei Ge Seungjun Nah Guilin Liu Tyler Poon Andrew Tao Bryan Catanzaro David Jacobs Jia-Bin Huang Ming-Yuan Liu Yogesh Balaji DiffM VGen 125 263 0 17 May 2023
Face Recognition Using Synthetic Face Data Omer Granoviter Alexey Gruzdev V. Loginov Max Kogan Orly Zvitia 89 1 0 17 May 2023
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts Yuyang Zhao Enze Xie Lanqing Hong Zhenguo Li G. Lee DiffM VGen 102 34 0 15 May 2023
Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era Chenghao Li Chaoning Zhang Atish Waghwase Lik-Hang Lee François Rameau Yang Yang Sung-Ho Bae Choong Seon Hong 104 78 0 10 May 2023
iEdit: Localised Text-guided Image Editing with Weak Supervision Rumeysa Bodur Erhan Gundogdu Binod Bhattarai Tae-Kyun Kim M. Donoser Loris Bazzani DiffM 72 15 0 10 May 2023
Text-guided High-definition Consistency Texture Model Zhibin Tang Tiantong He DiffM 37 6 0 10 May 2023
Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style Transfer Nisha Huang Yuxin Zhang Weiming Dong DiffM VGen 66 17 0 09 May 2023
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation Yupei Lin Senyang Zhang Xiaojun Yang Tianlin Li Yukai Shi DiffM 49 7 0 08 May 2023
AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion Seungwoo Lee Chaerin Kong D. Jeon Nojun Kwak DiffM 111 20 0 06 May 2023
DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation Hong Chen Yipeng Zhang Simin Wu Xin Eric Wang Xuguang Duan Yuwei Zhou Wenwu Zhu DiffM 110 51 0 05 May 2023
Multimodal Procedural Planning via Dual Text-Image Prompting Yujie Lu Pan Lu Zhiyu Zoey Chen Wanrong Zhu Xinze Wang William Yang Wang LM&Ro 130 45 0 02 May 2023
Key-Locked Rank One Editing for Text-to-Image Personalization Yoad Tewel Rinon Gal Gal Chechik Yuval Atzmon DiffM 252 174 0 02 May 2023
In-Context Learning Unlocked for Diffusion Models Zhendong Wang Yi Ding Yadong Lu Yelong Shen Pengcheng He Weizhu Chen Zhangyang Wang Mingyuan Zhou VLM DiffM 150 78 0 01 May 2023
Let the Chart Spark: Embedding Semantic Context into Chart with Text-to-Image Generative Model Shishi Xiao Suizi Huang Yue Lin Yilin Ye Weizhen Zeng 89 34 0 28 Apr 2023
IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers Rong Wu Wanchao Su Kede Ma Jing Liao 114 41 0 27 Apr 2023
Learning Human-Human Interactions in Images from Weak Textual Supervision Morris Alper Hadar Averbuch-Elor VLM 80 2 0 27 Apr 2023
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models Zhendong Wang Yi Ding Huangjie Zheng Peihao Wang Pengcheng He Zhangyang Wang Weizhu Chen Mingyuan Zhou 90 108 0 25 Apr 2023
SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation Nikos Athanasiou Mathis Petrovich Michael J. Black Gül Varol 105 42 0 20 Apr 2023
HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks Zhuo Chen Xudong Xu Yichao Yan Ye Pan Wenhan Zhu Wayne Wu Bo Dai Xiaokang Yang 3DH 78 8 0 19 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 582 4,946 0 17 Apr 2023
Delta Denoising Score Amir Hertz Kfir Aberman Daniel Cohen-Or DiffM 115 98 0 14 Apr 2023
One-Shot Stylization for Full-Body Human Images Aiyu Cui Svetlana Lazebnik 3DH 69 0 0 14 Apr 2023
Expressive Text-to-Image Generation with Rich Text Songwei Ge Taesung Park Jun-Yan Zhu Jia-Bin Huang DiffM 162 82 0 13 Apr 2023
Segment Everything Everywhere All at Once Xueyan Zou Jianwei Yang Hao Zhang Feng Li Linjie Li Jianfeng Wang Lijuan Wang Jianfeng Gao Yong Jae Lee MLLM VLM 122 493 0 13 Apr 2023
An Edit Friendly DDPM Noise Space: Inversion and Manipulations Inbar Huberman-Spiegelglas Vladimir Kulikov T. Michaeli DiffM 124 153 0 12 Apr 2023
DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion J. Karras Aleksander Holynski Ting-Chun Wang Ira Kemelmacher-Shlizerman DiffM VGen 91 149 0 12 Apr 2023
Improving Diffusion Models for Scene Text Editing with Dual Encoders Jiabao Ji Guanhua Zhang Zhaowen Wang Bairu Hou Zhifei Zhang Brian L. Price Shiyu Chang DiffM 77 31 0 12 Apr 2023
Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into 3D, alleviate Janus problem and Beyond Mohammadreza Armandpour A. Sadeghian Huangjie Zheng Amir Sadeghian Mingyuan Zhou DiffM 86 128 0 11 Apr 2023
Leveraging Neural Representations for Audio Manipulation Scott H. Hawley C. Steinmetz 65 2 0 10 Apr 2023
Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models Nikita Starodubcev Dmitry Baranchuk Valentin Khrulkov Artem Babenko DiffM 98 4 0 10 Apr 2023
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning Jing Shi Wei Xiong Zhe Lin H. J. Jung DiffM 187 294 0 06 Apr 2023
Inst-Inpaint: Instructing to Remove Objects with Diffusion Models Ahmet Burak Yildirim Vedat Baday Erkut Erdem Aykut Erdem Aysegül Dündar DiffM 109 64 0 06 Apr 2023
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models Xuhui Jia Yang Zhao Kelvin C. K. Chan Yandong Li Han-Ying Zhang Boqing Gong Tingbo Hou Haoran Wang Yu-Chuan Su DiffM 73 100 0 05 Apr 2023