Zero-shot spatial layout conditioning for text-to-image diffusion models

23 June 2023

Papers citing "Zero-shot spatial layout conditioning for text-to-image diffusion models"

50 / 60 papers shown

Title
Don't Forget your Inverse DDIM for Image Editing Guillermo Gomez-Trenado Pablo Mesejo Ó. Cordón Stéphane Lathuilière DiffM 28 0 0 14 May 2025
PartStickers: Generating Parts of Objects for Rapid Prototyping Mo Zhou Josh Myers-Dean Danna Gurari 28 0 0 07 Apr 2025
Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis Woojung Han Yeonkyung Lee Chanyoung Kim Kwanghyun Park Seong Jae Hwang DiffM 65 0 0 28 Mar 2025
ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation Yunhong Min Daehyeon Choi Kyeongmin Yeo Jihyun Lee Minhyuk Sung 54 0 0 28 Mar 2025
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation Oucheng Huang Yuhang Ma Zeng Zhao Mingrui Wu Jiayi Ji Rongsheng Zhang Zhibo Hu Xiaoshuai Sun Rongrong Ji 46 0 0 22 Mar 2025
UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer Haoxuan Wang Jinlong Peng Q. He Hao Yang Ying Jin ... Yanjie Pan Zhenye Gan M. Chi Bo Peng Yuping Wang DiffM 60 1 0 12 Mar 2025
Synthetic Lung X-ray Generation through Cross-Attention and Affinity Transformation Ruochen Pi Lianlei Shan MedIm DiffM 41 0 0 10 Mar 2025
Consistent Image Layout Editing with Diffusion Models Tao Xia Yudi Zhang Ting Liu Lei Zhang DiffM 66 1 0 09 Mar 2025
Spherical Dense Text-to-Image Synthesis Timon Winter Stanislav Frolov Brian B. Moser Andreas Dengel MDE DiffM 83 0 0 18 Feb 2025
PreciseCam: Precise Camera Control for Text-to-Image Generation Edurne Bernal-Berdun Ana Serrano B. Masiá Matheus Gadelha Yannick Hold-Geoffroy Xin Sun Diego F. F. Gutierrez DiffM VGen 54 0 0 22 Jan 2025
Generating Compositional Scenes via Text-to-image RGBA Instance Generation Alessandro Fontanella Petru-Daniel Tudosiu Yongxin Yang Shifeng Zhang Sarah Parisot 43 2 0 16 Nov 2024
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis Taihang Hu Linxuan Li Joost van de Weijer Hongcheng Gao Fahad Shahbaz Khan Jian Yang Ming-Ming Cheng Kai Wang Yaxing Wang DiffM 57 4 0 11 Nov 2024
Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation Sanchar Palit Sathya Veera Reddy Dendi Mallikarjuna Talluri Raj Narayana Gadde 41 0 0 09 Nov 2024
Novel Object Synthesis via Adaptive Text-Image Harmony Zeren Xiong Zedong Zhang Zikun Chen Shuo Chen Xianrui Li Gan Sun Jian Yang Jun Li DiffM 45 4 0 28 Oct 2024
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation Phillip Y. Lee Taehoon Yoon Minhyuk Sung 57 4 1 27 Oct 2024
GraspDiffusion: Synthesizing Realistic Whole-body Hand-Object Interaction Patrick Kwon Hanbyul Joo 28 3 0 17 Oct 2024
RadGazeGen: Radiomics and Gaze-guided Medical Image Generation using Diffusion Models Moinak Bhattacharya Gagandeep Singh Shubham Jain Prateek Prasanna MedIm DiffM 34 1 0 01 Oct 2024
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation Abdelrahman Eldesokey Peter Wonka DiffM 46 4 0 27 Aug 2024
Diverse Generation while Maintaining Semantic Coordination: A Diffusion-Based Data Augmentation Method for Object Detection Sen Nie Zhuo Wang Xinxin Wang Kun He DiffM 73 0 0 06 Aug 2024
Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing Ekaterina Iakovleva Fabio Pizzati Philip Torr Stéphane Lathuiliere DiffM 34 0 0 29 Jul 2024
LSReGen: Large-Scale Regional Generator via Backward Guidance Framework Bowen Zhang Cheng Yang Xuanhui Liu DiffM 35 0 0 21 Jul 2024
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey Chenyu Zhang Mingwang Hu Wenhui Li Lanjun Wang 41 15 0 10 Jul 2024
PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models Jinhua Zhang Hualian Sheng Sijia Cai Bing Deng Qiao Liang Wen Li Ying Fu Jieping Ye Shuhang Gu DiffM 34 2 0 08 Jul 2024
GVDIFF: Grounded Text-to-Video Generation with Diffusion Models Huanzhang Dou Ruixiang Li Wei Su Xi Li DiffM 44 1 0 02 Jul 2024
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language Yicheng Chen Xiangtai Li Yining Li Yanhong Zeng Jianzong Wu Xiangyu Zhao Kai Chen VLM DiffM 56 3 0 28 Jun 2024
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation Yanan Sun Yanchen Liu Yinhao Tang Wenjie Pei Kai Chen DiffM 32 8 0 27 Jun 2024
SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance Guibao Shen Luozhou Wang Jiantao Lin Wenhang Ge Chaozhe Zhang ... Pengfei Wan Zhong-ming Wang Guangyong Chen Yijun Li Yingcong Chen 40 8 0 24 May 2024
Enhancing Image Layout Control with Loss-Guided Diffusion Models Zakaria Patel Kirill Serkh DiffM 44 3 0 23 May 2024
Bridging the Intent Gap: Knowledge-Enhanced Visual Generation Yi Cheng Ziwei Xu Dongyun Lin Harry Cheng Yongkang Wong Ying Sun Joo Hwee Lim Mohan Kankanhalli 41 0 0 21 May 2024
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation Shengyuan Liu Bo Wang Ye Ma Te Yang Xipeng Cao Quan Chen Han Li Di Dong Peng Jiang EGVM 44 2 0 11 May 2024
Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation Tianyidan Xie Rui Ma Qian Wang Xiaoqian Ye Feixuan Liu Ying Tai Zhenyu Zhang Lanjun Wang Zili Yi DiffM MLLM 47 2 0 29 Apr 2024
Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance Dazhong Shen Guanglu Song Zeyue Xue Fu-Yun Wang Yu Liu DiffM 38 11 0 08 Apr 2024
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models Barbara Toniella Corradini Mustafa Shukor Paul Couairon Guillaume Couairon Franco Scarselli Matthieu Cord DiffM VLM 45 4 0 29 Mar 2024
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation Omer Dahary Or Patashnik Kfir Aberman Daniel Cohen-Or DiffM 40 28 0 25 Mar 2024
Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models Pablo Marcos-Manchón Roberto Alcover-Couso Juan C. Sanmiguel Jose M. Martínez VLM 49 18 0 21 Mar 2024
ReGround: Improving Textual and Spatial Grounding at No Cost Yuseung Lee Minhyuk Sung DiffM 28 2 0 20 Mar 2024
XReal: Realistic Anatomy and Pathology-Aware X-ray Generation via Controllable Diffusion Model Anees Ur Rehman Hashmi Ibrahim Almakky Mohammad Areeb Qazi Santosh Sanjeev Vijay Ram Papineni Dwarikanath Mahapatra Mohammad Yaqub MedIm 38 5 0 14 Mar 2024
Controllable Generation with Text-to-Image Diffusion Models: A Survey Pu Cao Feng Zhou Qing-Huang Song Lu Yang 72 37 0 07 Mar 2024
NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging Takahiro Shirakawa Seiichi Uchida DiffM 35 15 0 06 Mar 2024
Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks Yuhao Liu Zhanghan Ke Fang Liu Nanxuan Zhao Rynson W. H. Lau DiffM 35 19 0 01 Mar 2024
Layout-to-Image Generation with Localized Descriptions using ControlNet with Cross-Attention Control Denis Lukovnikov Asja Fischer DiffM 38 3 0 20 Feb 2024
Spatial-Aware Latent Initialization for Controllable Image Generation Wenqiang Sun Tengtao Li Zehong Lin Jun Zhang 44 10 0 29 Jan 2024
Unlocking Pre-trained Image Backbones for Semantic Image Synthesis Tariq Berrada Jakob Verbeek Camille Couprie Alahari Karteek 39 6 0 20 Dec 2023
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising Bingyuan Wang Hengyu Meng Zeyu Cai Lanjiong Li Yue Ma Qifeng Chen Zeyu Wang DiffM 37 3 0 18 Dec 2023
Planning and Rendering: Towards End-to-End Product Poster Generation Zhaochen Li Fengheng Li Wei Feng Honghe Zhu An Liu ... Xin Zhu Jun-Jun Shen Zhangang Lin Jingping Shao Zhenglu Yang DiffM 21 2 0 14 Dec 2023
InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models Jiun Tian Hoe Xudong Jiang Chee Seng Chan Yap-Peng Tan Weipeng Hu 24 11 0 10 Dec 2023
StoryGPT-V: Large Language Models as Consistent Story Visualizers Xiaoqian Shen Mohamed Elhoseiny VLM 101 10 0 04 Dec 2023
Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation Biao Gong Siteng Huang Yutong Feng Shiwei Zhang Yuyuan Li Yu Liu DiffM 31 11 0 27 Nov 2023
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis Peiang Zhao Han Li Ruiyang Jin S. Kevin Zhou DiffM 51 12 0 21 Nov 2023
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models Omri Avrahami Amir Hertz Yael Vinker Moab Arar Shlomi Fruchter Ohad Fried Daniel Cohen-Or Dani Lischinski DiffM 60 32 0 16 Nov 2023