v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

17 November 2022

Aleksander Holynski

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,418 papers shown

Title
When Domain Generalization meets Generalized Category Discovery: An Adaptive Task-Arithmetic Driven Approach Vaibhav Rathore S. Bagchi Saikat Dutta Sarthak Mehrotra Zsolt Kira Biplab Banerjee OOD 108 1 0 19 Mar 2025
GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback Sungjae Lee Yeonjoo Hong Kwang In KIm 83 0 0 19 Mar 2025
LEGION: Learning to Ground and Explain for Synthetic Image Detection Hengrui Kang Siwei Wen Zichen Wen Junyan Ye Weijia Li ... Baichuan Zhou Bin Wang Dahua Lin Linfeng Zhang Conghui He 97 6 0 19 Mar 2025
TULIP: Towards Unified Language-Image Pretraining Zineng Tang Long Lian Seun Eisape Xudong Wang Roei Herzig Adam Yala Alane Suhr Trevor Darrell David M. Chan VLM CLIP MLLM 202 7 0 19 Mar 2025
The Power of Context: How Multimodality Improves Image Super-Resolution Kangfu Mei Hossein Talebi Mojtaba Ardakani Vishal M. Patel P. Milanfar M. Delbracio DiffM 126 2 0 18 Mar 2025
Stitch-a-Recipe: Video Demonstration from Multistep Descriptions Chi Hsuan Wu Kumar Ashutosh Kristen Grauman DiffM 107 0 0 18 Mar 2025
ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing Yulin Pan Xiangteng He Chaojie Mao Zhen Han Zeyinzi Jiang Junxuan Zhang Yu Liu EGVM VLM 114 2 0 18 Mar 2025
Advances in 4D Generation: A Survey Qiaowei Miao Kehan Li Jinsheng Quan Zhiyuan Min Shaojie Ma Yichao Xu Yi Yang Yawei Luo 148 2 0 18 Mar 2025
TarPro: Targeted Protection against Malicious Image Editing Kaixin Shen Ruijie Quan Jiaxu Miao Jun Xiao Yi Yang 111 1 0 18 Mar 2025
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing Yaowei Li Lingen Li Zhaoyang Zhang Xiaoyu Li Guangzhi Wang Hongxiang Li Xiaodong Cun Ying Shan Yuexian Zou DiffM 107 2 0 17 Mar 2025
FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models Minghan Li C. Xie Yongpeng Wu Lei Zhang Ming Wang DiffM VGen 130 1 0 17 Mar 2025
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode Junjia Huang Pengxiang Yan Jinhang Cai Jiyang Liu Zhao Wang Yitong Wang Xinglong Wu Guanbin Li DiffM 93 0 0 17 Mar 2025
Edit Transfer: Learning Image Editing via Vision In-Context Relations Lan Chen Qi Mao Yuchao Gu Mike Zheng Shou 158 4 0 17 Mar 2025
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-Jui Fu Yusu Qian Chen Chen Wenze Hu Zhe Gan Yue Yang 221 2 0 16 Mar 2025
FedGAI: Federated Style Learning with Cloud-Edge Collaboration for Generative AI in Fashion Design Mingzhu Wu Jianan Jiang Xinglin Li Hanhui Deng Di Wu FedML 138 0 0 16 Mar 2025
VTON 360: High-Fidelity Virtual Try-On from Any Viewing Direction Zijian He Yuwei Ning Yipeng Qin Wangrun Wang Sibei Yang Liang Lin G. Li 190 2 0 15 Mar 2025
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection Shufan Li Konstantinos Kallidromitis Akash Gokul Arsh Koneru Yusuke Kato Kazuki Kozuka Aditya Grover VLM 138 5 0 15 Mar 2025
LAPIG: Language Guided Projector Image Generation with Surface Adaptation and Stylization Yuchen Deng H. Ling Bingyao Huang 95 0 0 15 Mar 2025
PSF-4D: A Progressive Sampling Framework for View Consistent 4D Editing H. Iqbal Nazmul Karim Umar Khalid Azib Farooq Z. Zhong Jing Hua Chen Chen DiffM 3DGS VGen 132 0 0 14 Mar 2025
Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities Ruchika Chavhan Abhinav Mehrotra Malcolm Chadwick Alberto Gil C. P. Ramos Luca Morreale Mehdi Noroozi Sourav Bhattacharya 91 0 0 14 Mar 2025
PBR3DGen: A VLM-guided Mesh Generation with High-quality PBR Texture Xiaokang Wei Bowen Zhang Xiaoyu Yang Yuxuan Wang Chunchao Guo Xi Zhao Yan Luximon 105 0 0 14 Mar 2025
LUSD: Localized Update Score Distillation for Text-Guided Image Editing Worameth Chinchuthakun Tossaporn Saengja Nontawat Tritrong Pitchaporn Rewatbowornwong Pramook Khungurn Supasorn Suwajanakorn DiffM 104 0 0 14 Mar 2025
EmoAgent: A Multi-Agent Framework for Diverse Affective Image Manipulation Qi Mao Haobo Hu Yujie He Difei Gao Haokun Chen Libiao Jin DiffM 83 0 0 14 Mar 2025
ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning Xinyi Wang Jiashui Wang Peng Chen Jinbo Su Yanming Liu ... Xiang Li Kai Yun Qiyuan Chen Rongze Chen Chunfu Jia 98 0 0 14 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Yu Guo 118 6 0 13 Mar 2025
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer Bolin Chen Baoquan Zhao H. Xie Yi Cai Qing Li Xudong Mao DiffM 104 2 0 13 Mar 2025
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization Hanyang Zhao Haoxian Chen Yucheng Guo Genta Indra Winata Tingting Ou Ziyu Huang D. Yao Wenpin Tang 134 0 0 13 Mar 2025
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs Chongjun Tu Peng Ye Dongzhan Zhou Lei Bai Gang Yu Tao Chen Wanli Ouyang 131 0 0 13 Mar 2025
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing Rongyao Fang Chengqi Duan Kun Wang Linjiang Huang Hao Li ... Xingyu Zeng R. Zhao Jifeng Dai Xihui Liu Hongsheng Li MLLM ReLM LRM 165 23 0 13 Mar 2025
V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes Yanming Zhang Jun-Kun Chen Jipeng Lyu Yu-Xiong Wang DiffM VGen 116 0 0 13 Mar 2025
Enhancing Facial Privacy Protection via Weakening Diffusion Purification Ali Salar Qing Liu Yingli Tian Guoying Zhao DiffM 92 0 0 13 Mar 2025
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models Runze He Bo Cheng Yuhang Ma Qingxiang Jia Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin DiffM VLM 185 0 0 13 Mar 2025
InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images Jiun Tian Hoe Weipeng Hu Wei Zhou Chao Xie Ziwei Wang Chee Seng Chan Xudong Jiang Y. Tan 121 0 0 12 Mar 2025
Context-guided Responsible Data Augmentation with Diffusion Models Khawar Islam Naveed Akhtar 79 1 0 12 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 88 0 0 12 Mar 2025
Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models Héctor Laria Alexandra Gomez-Villa Jiang Qin Muhammad Atif Butt Bogdan Raducanu Javier Vázquez-Corral Joost van de Weijer Kai Wang DiffM 106 1 0 12 Mar 2025
MGHanD: Multi-modal Guidance for authentic Hand Diffusion Taehyeon Eum Jieun Choi Tae-Kyun Kim 85 1 0 11 Mar 2025
Identity Preserving Latent Diffusion for Brain Aging Modeling Gexin Huang Zhangsihao Yang Yalin Wang Guido Gerig Mengwei Ren Xiaoxiao Li MedIm DiffM 152 0 0 11 Mar 2025
GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing Yuanhao Wang Cheng Zhang Gonçalo Frazão Jinlong Yang Alexandru-Eugen Ichim Thabo Beeler Fernando de la Torre DiffM 116 0 0 11 Mar 2025
Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models Ishaan Malhi Praneet Dutta Ellie Talius Sally Ma Brendan Driscoll Krista Holden G. Pruthi Arunachalam Narayanaswamy DiffM 91 0 0 11 Mar 2025
VACE: All-in-One Video Creation and Editing Zeyinzi Jiang Zhen Han Chaojie Mao Junxuan Zhang Yulin Pan Yu Liu DiffM VGen 134 23 0 10 Mar 2025
Goal Conditioned Reinforcement Learning for Photo Finishing Tuning Jiarui Wu Yujin Wang Lingen Li Zhang Fan Tianfan Xue 91 0 0 10 Mar 2025
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model Lixue Gong Xiaoxia Hou Fanshi Li Liang Li Xiaochen Lian ... Qi Zhang Yuwei Zhang Shijia Zhao Jianchao Yang Weilin Huang DiffM VLM 116 14 0 10 Mar 2025
Color Alignment in Diffusion Ka Chun Shum Binh-Son Hua Duc Thanh Nguyen Sai-Kit Yeung 78 0 0 09 Mar 2025
Consistent Image Layout Editing with Diffusion Models Tao Xia Yudi Zhang Ting Liu Lei Zhang DiffM 134 1 0 09 Mar 2025
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation Yanjie Pan Qu He Zhengkai Jiang P. Xu Chaoyi Wang ... Yun Cao Zhenye Gan M. Chi Bo Peng Yun Wang DiffM 93 3 0 09 Mar 2025
VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models Xinan He Yue Zhou Bing Fan Bin Li Guopu Zhu Feng Ding 122 1 0 08 Mar 2025
Object-Centric World Model for Language-Guided Manipulation Youngjoon Jeong Junha Chun S. Cha Taesup Kim OCL VGen 402 2 0 08 Mar 2025
Get In Video: Add Anything You Want to the Video Shaobin Zhuang Zhipeng Huang Binxin Yang Ying Zhang Fangyikang Wang Canmiao Fu Chong Sun Zheng-Jun Zha Chen Li Yijiao Wang DiffM VGen 107 3 0 08 Mar 2025
Towards Locally Explaining Prediction Behavior via Gradual Interventions and Measuring Property Gradients Niklas Penzel Joachim Denzler FAtt 90 0 0 07 Mar 2025