Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis

9 December 2022

Papers citing "Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis"

50 / 263 papers shown

Title
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback Yixin Wan Kai-Wei Chang EGVM CoGe 27 0 0 16 May 2025
Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability L. Wang Senmao Li Fei Yang Jianye Wang Ziheng Zhang Yong-Jin Liu Y. Wang Jian Yang DiffM 61 0 0 06 May 2025
PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models Chang Xie Chenyi Zhuang Pan Gao VLM 40 0 0 06 May 2025
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation Mingcheng Li Xiaolu Hou Ziyang Liu Dingkang Yang Ziyun Qian Jiawei Chen Jinjie Wei Y. Jiang Qingyao Xu Li Zhang DiffM 156 0 0 05 May 2025
VSC: Visual Search Compositional Text-to-Image Diffusion Model Do Huu Dat Nam Hyeonu Po Yuan Mao Tae-Hyun Oh DiffM CoGe 66 0 0 02 May 2025
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT D. Jiang Ziyu Guo Renrui Zhang Zhuofan Zong Hao Li Le Zhuo Shilin Yan Pheng-Ann Heng Hao Li LRM 69 2 0 01 May 2025
Text-to-Image Alignment in Denoising-Based Models through Step Selection P. Grimal Hervé Le Borgne Olivier Ferret DiffM EGVM 48 0 0 24 Apr 2025
Efficient Temporal Consistency in Diffusion-Based Video Editing with Adaptor Modules: A Theoretical Framework Xinyuan Song Yangfan He Sida Li Jun Wang Hongyang He ... Keqin Li Kuan Lu Menghao Huo Binxu Li Pei Liu DiffM 37 0 0 22 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 76 0 0 16 Apr 2025
Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers Chunyang Zhang Zhenhong Sun Zhicheng Zhang Junyan Wang Yu Zhang Dong Gong H. Mo Daoyi Dong 45 0 0 14 Apr 2025
Dynamic Objective MPC for Motion Planning of Seamless Docking Maneuvers Oliver Schumann Michael Buchholz Klaus C. J. Dietmayer 40 0 0 04 Apr 2025
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis Zixuan Wang Duo Peng Feng Chen Yuqing Yang Yinjie Lei DiffM 79 0 0 02 Apr 2025
AP-CAP: Advancing High-Quality Data Synthesis for Animal Pose Estimation via a Controllable Image Generation Pipeline Lei Wang Yujie Zhong Xiaopeng Sun Jingchun Cheng C. Feng Qiong Cao Lin Ma Zhaoxin Fan 51 0 0 01 Apr 2025
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes Nikai Du Zhennan Chen Z. Chen Shan Gao Xi Chen Zhengkai Jiang Jian Yang Ying Tai DiffM 43 0 0 30 Mar 2025
On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation H. Seo Junseo Bang Haechang Lee Joohoon Lee Byung Hyun Lee Se Young Chun 46 0 0 29 Mar 2025
Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis Woojung Han Yeonkyung Lee Chanyoung Kim Kwanghyun Park Seong Jae Hwang DiffM 62 0 0 28 Mar 2025
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance Shulei Wang Wang Lin Hai Huang Hanting Wang Sihang Cai ... Tao Jin Jingyuan Chen Jiacheng Sun Jieming Zhu Zhou Zhao DiffM 55 2 0 22 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 94 0 0 17 Mar 2025
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation Seyed Mohsen Hosseini Amir Mohammad Izadi Ali Abdollahi Armin Saghafian M. Baghshah EGVM CoGe 81 0 0 14 Mar 2025
Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models Sina Malakouti Adriana Kovashka EGVM 69 0 0 13 Mar 2025
Active Learning Inspired ControlNet Guidance for Augmenting Semantic Segmentation Datasets H. Kniesel Pedro Hermosilla Timo Ropinski 71 0 0 12 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohsen Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 45 0 0 09 Mar 2025
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning Shashank Gupta Chaitanya Ahuja Tsung-Yu Lin Sreya Dutta Roy Harrie Oosterhuis Maarten de Rijke Satya Narayan Shukla 46 1 0 02 Mar 2025
FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion Yufan Zhou Haoyu Shen Huan Wang DiffM 108 0 0 17 Feb 2025
Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene Tai-Yu Pan Sooyoung Jeon Mengdi Fan Jinsu Yoo Zhenyang Feng Mark E. Campbell Kilian Q. Weinberger Bharath Hariharan Wei-Lun Chao 106 0 0 10 Feb 2025
Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution Siwei Tu Ben Fei Weidong Yang Fenghua Ling Hao Chen Zili Liu Kun Chen Hang Fan W. Ouyang Junlin Wu 74 0 0 09 Feb 2025
Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan 79 4 0 20 Jan 2025
Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance Dongmin Park Sebin Kim Taehong Moon Minkyu Kim Kangwook Lee Jaewoong Cho DiffM CoGe 64 2 0 08 Jan 2025
CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion Models Kuan-Hung Liu Cheng-Kun Yang Min-Hung Chen Yu-Lun Liu Y. Lin DiffM 33 1 0 04 Jan 2025
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei Shengqiong Wu H. Zhang Tat-Seng Chua Shuicheng Yan 64 38 0 31 Dec 2024
Grid Diffusion Models for Text-to-Video Generation Taegyeong Lee Soyeong Kwon Taehwan Kim 54 5 0 31 Dec 2024
Mojito: Motion Trajectory and Intensity Control for Video Generation Xuehai He Shuohang Wang Jianwei Yang Xiaoxia Wu Yixuan Wang Kuan-Chieh Jackson Wang Z. Zhan Olatunji Ruwase Yelong Shen Qing Guo VGen 86 1 0 12 Dec 2024
Enhancing MMDiT-Based Text-to-Image Models for Similar Subject Generation Tianyi Wei Dongdong Chen Yifan Zhou Xingang Pan EGVM 88 2 0 27 Nov 2024
Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis Boming Miao C. Li X. U. Wang Andi Zhang Rui Sun Zizhe Wang Yao Zhu DiffM 76 0 0 25 Nov 2024
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory Eric Hanchen Jiang Yasi Zhang Zhi Zhang Yixin Wan Andrew Lizarraga Shufan Li Ying Nian Wu DiffM 77 2 0 25 Nov 2024
Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps Jeeyung Kim Erfan Esmaeili Qiang Qiu DiffM 87 1 0 21 Nov 2024
Spider: Any-to-Many Multimodal LLM Jinxiang Lai Jie Zhang Jun Liu Jian Li Xiaocheng Lu Song Guo MLLM 66 2 0 14 Nov 2024
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis Taihang Hu Linxuan Li Joost van de Weijer Hongcheng Gao Fahad Shahbaz Khan Jian Yang Ming-Ming Cheng Kai Wang Yaxing Wang DiffM 57 4 0 11 Nov 2024
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement Zhennan Chen Yajie Li Haofan Wang Z. Chen Zhengkai Jiang Jun Yu Li Qian Wang Jian Yang Ying Tai DiffM 52 8 0 10 Nov 2024
Improving image synthesis with diffusion-negative sampling Alakh Desai Nuno Vasconcelos DiffM 37 0 0 08 Nov 2024
Few-Shot Task Learning through Inverse Generative Modeling Aviv Netanyahu Yilun Du Antonia Bronars Jyothish Pari J. Tenenbaum Tianmin Shu Pulkit Agrawal 51 1 0 07 Nov 2024
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 62 13 0 07 Nov 2024
Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models Arash Marioriyad Parham Rezaei M. Baghshah M. Rohban CoGe 142 0 0 30 Oct 2024
CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians Chongjian Ge Chenfeng Xu Yuanfeng Ji C-T.John Peng M. Tomizuka Ping Luo Mingyu Ding Varun Jampani W. Zhan 3DGS 34 4 0 28 Oct 2024
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! Arash Marioriyad Mohammadali Banayeeanzade Reza Abbasi M. Rohban M. Baghshah DiffM 75 3 0 28 Oct 2024
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation Phillip Y. Lee Taehoon Yoon Minhyuk Sung 46 4 1 27 Oct 2024
Progressive Compositionality in Text-to-Image Generative Models Xu Han Linghao Jin Xiaofeng Liu Paul Pu Liang CoGe 106 2 0 22 Oct 2024
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective Xiangru Zhu Penglei Sun Yaoxian Song Yanghua Xiao Zhixu Li Chengyu Wang Jun Huang Bei Yang Xiaoxiao Xu EGVM 185 1 0 14 Oct 2024
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design Jiachen Li Qian Long Jian Zheng Xiaofeng Gao Robinson Piramuthu Wenhu Chen William Yang Wang VGen 29 22 0 08 Oct 2024
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction Leheng Li Weichao Qiu Xu Yan Jing He Kaiqiang Zhou Yingjie Cai Qing Lian Bingbing Liu Ying-Cong Chen SyDa DiffM 47 1 0 07 Oct 2024