v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

17 November 2022

Aleksander Holynski

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,418 papers shown

Title
SuperNeRF-GAN: A Universal 3D-Consistent Super-Resolution Framework for Efficient and Enhanced 3D-Aware Image Synthesis Peng Zheng Linzhi Huang Yizhou Yu Y. Chang Yilin Wang Rui Ma 124 0 0 20 Jan 2025
Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan 160 4 0 20 Jan 2025
Disharmony: Forensics using Reverse Lighting Harmonization P. W. Shin Jack Sampson Vijaykrishnan Narayanan Andres Marquez Mahantesh Halappanavar DiffM 133 0 0 20 Jan 2025
SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic Faces Sumit Chaturvedi Mengwei Ren Yannick Hold-Geoffroy Jingyuan Liu Julie Dorsey Zhixin Shu DiffM 99 0 0 17 Jan 2025
IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion Tharun Anand Aryan Garg Kaushik Mitra VGen DiffM 92 0 0 13 Jan 2025
Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation Xiaoying Xing Avinab Saha Junfeng He Susan Hao Paul Vicol ... Sahil Singla Sarah Young Yinxiao Li Feng Yang Deepak Ramachandran DiffM 116 1 0 11 Jan 2025
Qffusion: Controllable Portrait Video Editing via Quadrant-Grid Attention Learning Maomao Li Lijian Lin Yunfei Liu Ye Zhu Yu Li DiffM VGen 113 0 0 11 Jan 2025
HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection Anant Mehta Bryant McArthur Nagarjuna Kolloju Zhengzhong Tu 96 0 0 10 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming-Hsuan Yang Sergey Tulyakov DiffM VGen 192 13 0 10 Jan 2025
EditAR: Unified Conditional Generation with Autoregressive Models Jiteng Mu Nuno Vasconcelos Xinyu Wang DiffM 89 6 0 08 Jan 2025
Instructive3D: Editing Large Reconstruction Models with Text Instructions Kunal Kathare Ankit Dhiman K Vikas Gowda Siddharth Aravindan Shubham Monga Basavaraja Shanthappa Vandrotti Lokesh R. Boregowda DiffM 76 2 0 08 Jan 2025
Edit as You See: Image-guided Video Editing via Masked Motion Modeling Zhi-Lin Huang Yebin Liu Chujun Qin Zihan Wang Dong Zhou Dong Li E. Barsoum DiffM VGen 77 0 0 08 Jan 2025
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild Jiawei Liu Yuanzhi Zhu Feiyu Gao Zhiyong Yang P. Wang Junyang Lin Xinyu Wang Wenyu Liu DiffM 92 0 0 08 Jan 2025
Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling Nannan Li Kevin J. Shih Bryan A. Plummer DiffM 127 0 0 08 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 171 15 0 06 Jan 2025
ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling Chaojie Mao Junxuan Zhang Yulin Pan Zeyinzi Jiang Zhen Han Yu Liu Jingren Zhou DiffM 135 21 0 05 Jan 2025
TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration Yizhou Li Zihua Liu Yusuke Monno Masatoshi Okutomi DiffM VGen 78 1 0 04 Jan 2025
GeoDiffuser: Geometry-Based Image Editing with Diffusion Models Rahul Sajnani Jeroen Vanbaar Jie Min Kapil D. Katyal Srinath Sridhar DiffM 174 13 0 03 Jan 2025
SOEDiff: Efficient Distillation for Small Object Editing Yiming Wu Qihe Pan Zhen Zhao Zicheng Wang Sifan Long Ronghua Liang DiffM 179 0 0 03 Jan 2025
Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model Omid Saghatchian Atiyeh Gh. Moghadam Ahmad Nickabadi MoMe 147 1 0 03 Jan 2025
PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation Zhenyu Li Wenqing Cui S. Bhat Peter Wonka MDE 122 0 0 03 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 360 59 0 03 Jan 2025
RORem: Training a Robust Object Remover with Human-in-the-Loop Ruibin Li Tao Yang Song Guo Lefei Zhang 172 4 0 01 Jan 2025
Grid Diffusion Models for Text-to-Video Generation Taegyeong Lee Soyeong Kwon Taehwan Kim 155 8 0 31 Dec 2024
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei Shengqiong Wu Hao Zhang Tat-Seng Chua Shuicheng Yan 188 42 0 31 Dec 2024
Edicho: Consistent Image Editing in the Wild Qingyan Bai Hao Ouyang Yinghao Xu Qiuyu Wang Ceyuan Yang Ka Leong Cheng Yujun Shen Qifeng Chen DiffM 176 1 0 30 Dec 2024
Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision Jie Jing Qing Lin Shuangpeng Han Lucia Schiatti Yen-Ling Kuo Mengmi Zhang VLM 93 0 0 30 Dec 2024
DPBridge: Latent Diffusion Bridge for Dense Prediction Haorui Ji Taojun Lin Hongdong Li DiffM 299 1 0 29 Dec 2024
Bridging Interpretability and Robustness Using LIME-Guided Model Refinement Navid Nayyem Abdullah Rakin Longwei Wang AAML FAtt 110 2 0 25 Dec 2024
Forensics of Transpiled Quantum Circuits Rupshali Roy Archisman Ghosh Swaroop Ghosh 107 1 0 25 Dec 2024
Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models Qice Qin Yuki Hirakawa Ryotaro Shimizu Takuya Furusawa Edgar Simo-Serra DiffM 62 0 0 24 Dec 2024
Editing Implicit and Explicit Representations of Radiance Fields: A Survey Arthur Hubert Gamal Elghazaly R. Frank AI4CE 416 0 0 23 Dec 2024
DreamOmni: Unified Image Generation and Editing Bin Xia Yuechen Zhang Jingyao Li Chengyao Wang Yitong Wang Xinglong Wu Bei Yu Jiaya Jia SyDa MLLM 135 5 0 22 Dec 2024
Mapping the Mind of an Instruction-based Image Editing using SMILE Zeinab Dehghani Koorosh Aslansefat Adil Khan Adín Ramirez Rivera Franky George Muhammad Khalid DiffM 172 1 0 20 Dec 2024
Reframing Image Difference Captioning with BLIP2IDC and Synthetic Augmentation Gautier Evennou Antoine Chaffin Vivien Chappelier Ewa Kijak DiffM 125 0 0 20 Dec 2024
Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance Hyunsoo Lee Minsoo Kang Bohyung Han 110 1 0 20 Dec 2024
Dataset Augmentation by Mixing Visual Concepts Abdullah Al Rahat Hemanth Venkateswara DiffM 116 0 0 19 Dec 2024
DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions Chenghao Gu Zhenzhe Li Zhengqi Zhang Yunpeng Bai Shuzhao Xie Zhi Wang DiffM 120 1 0 18 Dec 2024
Urban Air Temperature Prediction using Conditional Diffusion Models Siyang Dai Jun Liu Ngai-Man Cheung 143 0 0 18 Dec 2024
Prompt Augmentation for Self-supervised Text-guided Image Manipulation Rumeysa Bodur Binod Bhattarai Tae-Kyun Kim DiffM 163 3 0 17 Dec 2024
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning Moritz Reuss Jyothish Pari Pulkit Agrawal Rudolf Lioutikov DiffM MoE 143 8 0 17 Dec 2024
Towards a Training Free Approach for 3D Scene Editing Vivek Madhavaram Shivangana Rawat Chaitanya Devaguptapu Charu Sharma Manohar Kaul DiffM 136 0 0 17 Dec 2024
IDEA-Bench: How Far are Generative Models from Professional Designing? C. Liang Lianghua Huang Jingwu Fang Huanzhang Dou Wei Wang Zhi-Fan Wu Yupeng Shi Junge Zhang Xin Zhao Yu Liu 3DV 142 1 0 16 Dec 2024
LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model Xi Wang Haoyang Li Heng Fang Yichen Peng H. Xie Xi Yang Chuntao Li DiffM 110 1 0 16 Dec 2024
EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting Dong In Lee Hyeongcheol Park Jiyoung Seo Eunbyung Park Hyunje Park Ha Dam Baek Shin Sangheon Sangmin kim Sangpil Kim 3DGS 210 3 0 16 Dec 2024
ColorFlow: Retrieval-Augmented Image Sequence Colorization Junhao Zhuang Xuan Ju Zhe Zhang Yong-Jin Liu Shiyi Zhang Chun Yuan Ying Shan DiffM 177 1 0 16 Dec 2024
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models Rick Akkerman Haiwen Feng M. Black Dimitrios Tzionas Victoria Fernandez-Abrevaya VGen AI4CE 199 3 0 16 Dec 2024
Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing Jiancheng Huang Yi Huang Jianzhuang Liu Donghao Zhou Yang Liu Shifeng Chen DiffM 156 2 0 15 Dec 2024
VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation Saksham Singh Kushwaha Yapeng Tian DiffM VGen 127 2 0 14 Dec 2024
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing Umar Khalid Hasan Iqbal Azib Farooq Nazanin Rahnavard Jing Hua ... H. Iqbal Azib Farooq Nazanin Rahnavard Jing Hua Chen Chen 117 0 0 13 Dec 2024