v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

17 November 2022

Aleksander Holynski

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,418 papers shown

Title
PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM Stefan Stefanache Lluís Pastor Pérez Julen Costa Watanabe Ernesto Sanchez Tejedor Thomas Hofmann Enis Simsar EGVM 38 0 0 08 Oct 2024
DiffusionGuard: A Robust Defense Against Malicious Diffusion-based Image Editing June Suk Choi Kyungmin Lee Jongheon Jeong Saining Xie Jinwoo Shin Kimin Lee DiffM AAML 65 4 0 08 Oct 2024
Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond Soyeon Caren Han Feiqi Cao Josiah Poon Roberto Navigli MLLM VLM 66 5 0 08 Oct 2024
Generative Portrait Shadow Removal Jae Shin Yoon Zhixin Shu Mengwei Ren Xuaner Zhang Yannick Hold-Geoffroy Krishna Kumar Singh He Zhang DiffM 104 1 0 07 Oct 2024
TextureMeDefect: LLM-based Defect Texture Generation for Railway Components on Mobile Devices Rahatara Ferdousi M. Anwar Hossain Abdulmotaleb El Saddik 34 0 0 07 Oct 2024
GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting Yukang Cao Masoud Hadi Liang Pan Ziwei Liu 3DGS DiffM 102 5 0 07 Oct 2024
Revealing Directions for Text-guided 3D Face Editing Zhuo Chen Yichao Yan Sehngqi Liu Yuhao Cheng Weiming Zhao Lincheng Li Mengxiao Bi Xiaokang Yang DiffM 69 0 0 07 Oct 2024
Image Watermarks are Removable Using Controllable Regeneration from Clean Noise Yepeng Liu Yiren Song Hai Ci Yu Zhang Haofan Wang Mike Zheng Shou Yuheng Bu WIGM 118 7 0 07 Oct 2024
DeepONet for Solving Nonlinear Partial Differential Equations with Physics-Informed Training Yahong Yang 50 0 0 06 Oct 2024
Real-World Benchmarks Make Membership Inference Attacks Fail on Diffusion Models Chumeng Liang Jiaxuan You 88 0 0 04 Oct 2024
ScriptViz: A Visualization Tool to Aid Scriptwriting based on a Large Movie Database Anyi Rao Jean-Peic Chou Maneesh Agrawala VGen 58 3 0 04 Oct 2024
SAFLEX: Self-Adaptive Augmentation via Feature Label Extrapolation Mucong Ding Bang An Yuancheng Xu Anirudh Satheesh Furong Huang 72 1 0 03 Oct 2024
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation Muzhi Zhu Yang Liu Zekai Luo Chenchen Jing Hao Chen Guangkai Xu Xinlong Wang Chunhua Shen DiffM VLM 87 7 0 03 Oct 2024
Towards Native Generative Model for 3D Head Avatar Yiyu Zhuang Yuxiao He Jiawei Zhang Yanwen Wang Jiahe Zhu Yao Yao Siyu Zhu Xun Cao Hao Zhu 3DH 95 5 0 02 Oct 2024
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer Zhen Han Zeyinzi Jiang Yulin Pan Jingfeng Zhang Chaojie Mao Chenwei Xie Yu Liu Jingren Zhou DiffM 89 21 0 30 Sep 2024
FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation Litao Liu Wentao Wang Yifan Han Zhuoli Xie Pengfei Yi Junyan Li Yi Qin Wenzhao Lian 111 2 0 29 Sep 2024
Conditional Image Synthesis with Diffusion Models: A Survey Zheyuan Zhan Defang Chen Jian-Ping Mei Zhenghe Zhao Jiawei Chen Chun-Yen Chen Siwei Lyu Can Wang VLM 109 10 0 28 Sep 2024
Word2Wave: Language Driven Mission Programming for Efficient Subsea Deployments of Marine Robots Ruo Chen David Blow Adnan Abdullah Md Jahidul Islam 123 1 0 27 Sep 2024
Multimodal Pragmatic Jailbreak on Text-to-image Models Tong Liu Zhixin Lai Jiawen Wang Gengyuan Zhang Shuo Chen Philip Torr Vera Demberg Volker Tresp Jindong Gu 73 5 0 27 Sep 2024
Text2FX: Harnessing CLAP Embeddings for Text-Guided Audio Effects Annie Chu P. O'Reilly Julia Barnett Bryan Pardo CLIP 119 3 0 27 Sep 2024
Amodal Instance Segmentation with Diffusion Shape Prior Estimation Minh Tran Khoa T. Vo Tri Nguyen Ngan Le DiffM 69 0 0 26 Sep 2024
FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction Runze He Kai Ma Linjiang Huang Shaofei Huang Jialin Gao Xiaoming Wei Jiao Dai Jizhong Han Si Liu DiffM 78 9 0 26 Sep 2024
Visual Data Diagnosis and Debiasing with Concept Graphs Rwiddhi Chakraborty Yinong Wang Jialu Gao Runkai Zheng Cheng Zhang Fernando de la Torre 65 3 0 26 Sep 2024
AnyLogo: Symbiotic Subject-Driven Diffusion System with Gemini Status Jinghao Zhang Wen Qian Hao Luo Fan Wang Feng Zhao DiffM 71 0 0 26 Sep 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 173 12 0 26 Sep 2024
HazeSpace2M: A Dataset for Haze Aware Single Image Dehazing Md Tanvir Islam Nasir Rahim Saeed Anwar Muhammad Saqib Sambit Bakshi Khan Muhammad 60 7 0 25 Sep 2024
Skyeyes: Ground Roaming using Aerial View Images Zhiyuan Gao Wenbin Teng Gonglin Chen Jinsen Wu Ningli Xu R. Qin Andrew Feng Yajie Zhao VGen 90 2 0 25 Sep 2024
Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models Deepak Sridhar Nuno Vasconcelos DiffM 64 2 0 25 Sep 2024
Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model Hongliang Zhong Can Wang Jingbo Zhang Jing Liao 3DGS DiffM 86 2 0 25 Sep 2024
GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design Phillip Mueller Sebastian Mueller Lars Mikelsons 112 2 0 25 Sep 2024
ImPoster: Text and Frequency Guidance for Subject Driven Action Personalization using Diffusion Models D. Kothandaraman Kuldeep Kulkarni Sumit Shekhar Balaji Vasan Srinivasan Dinesh Manocha DiffM 95 1 0 24 Sep 2024
TextToon: Real-Time Text Toonify Head Avatar from Single Video Luchuan Song Lele Chen Celong Liu Pinxin Liu Chenliang Xu DiffM 96 9 0 23 Sep 2024
MaterialFusion: Enhancing Inverse Rendering with Material Diffusion Priors Yehonathan Litman Or Patashnik Kangle Deng Aviral Agrawal Rushikesh Zawar Fernando de la Torre Shubham Tulsiani 146 7 0 23 Sep 2024
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions Weifeng Lin Xinyu Wei Renrui Zhang Le Zhuo Shitian Zhao ... Junlin Xie Junlin Xie Yu Qiao Peng Gao Hongsheng Li MLLM DiffM 192 14 0 23 Sep 2024
Self-Supervised Audio-Visual Soundscape Stylization Tingle Li Renhao Wang Po-Yao Huang Andrew Owens Gopala Anumanchipalli DiffM SSL 100 5 0 22 Sep 2024
Dormant: Defending against Pose-driven Human Image Animation Jiachen Zhou Mingsi Wang Tianlin Li Guozhu Meng Kai Chen 160 5 0 22 Sep 2024
JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation Hadrien Reynaud Matthew Baugh Mischa Dombrowski Sarah Cechnicka Qingjie Meng Bernhard Kainz VLM 66 0 0 21 Sep 2024
Portrait Video Editing Empowered by Multimodal Generative Priors Xuan Gao Haiyao Xiao Chenglai Zhong Shimin Hu Yudong Guo Juyong Zhang VGen 3DGS 106 4 0 20 Sep 2024
DNI: Dilutional Noise Initialization for Diffusion Video Editing Sunjae Yoon Gwanhyeong Koo Ji Woo Hong Chang D. Yoo DiffM 78 2 0 19 Sep 2024
Vision Language Models Can Parse Floor Plan Maps David DeFazio Hrudayangam Mehta Jeremy Blackburn Shiqi Zhang CoGe 79 0 0 19 Sep 2024
LEMON: Localized Editing with Mesh Optimization and Neural Shaders Furkan Mert Algan Umut Yazgan Driton Salihu Cem Eteke Eckehard G. Steinbach DiffM 26 0 0 18 Sep 2024
ORB-SfMLearner: ORB-Guided Self-supervised Visual Odometry with Selective Online Adaptation Yanlin Jin Rui-Yang Ju Haojun Liu Yuzhong Zhong 106 0 0 18 Sep 2024
OmniGen: Unified Image Generation Shitao Xiao Yueze Wang Yueze Wang Huaying Yuan Xingrun Xing Ruiran Yan Shuting Wang Tiejun Huang Zheng Liu DiffM VLM SyDa 131 88 0 17 Sep 2024
SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing Qi Qian Haiyang Xu Ming Yan Juhua Hu DiffM 65 1 0 16 Sep 2024
TextureDiffusion: Target Prompt Disentangled Editing for Various Texture Transfer Zihan Su Junhao Zhuang Chun Yuan DiffM 126 0 0 15 Sep 2024
InstantDrag: Improving Interactivity in Drag-based Image Editing Joonghyuk Shin Daehyeon Choi Jaesik Park DiffM 81 8 0 13 Sep 2024
Improving Text-guided Object Inpainting with Semantic Pre-inpainting Yifu Chen Jingwen Chen Yingwei Pan Yehao Li Ting Yao Zhineng Chen Tao Mei DiffM 77 7 0 12 Sep 2024
Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation Junsung Lee Minsoo Kang Bohyung Han DiffM VLM 43 3 0 12 Sep 2024
Data Augmentation via Latent Diffusion for Saliency Prediction Bahar Aydemir Deblina Bhattacharjee Tong Zhang Mathieu Salzmann Sabine Süsstrunk 110 1 0 11 Sep 2024
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records Daeun Kyung J. Kim Tackeun Kim Edward Choi MedIm DiffM 111 1 0 11 Sep 2024