Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis

9 December 2022

Papers citing "Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis"

50 / 263 papers shown

Title
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment Yuheng Li Haotian Liu Mu Cai Yijun Li Eli Shechtman Zhe Lin Yong Jae Lee Krishna Kumar Singh VLM 141 1 0 01 Oct 2024
Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation Yunnan Wang Ziqiang Li Zequn Zhang Wenyao Zhang Baao Xie Xihui Liu Wenjun Zeng Xin Jin CoGe DiffM 26 2 0 01 Oct 2024
A Cat Is A Cat (Not A Dog!): Unraveling Information Mix-ups in Text-to-Image Encoders through Causal Analysis and Embedding Optimization Chieh-Yun Chen Chiang Tseng Li-Wu Tsao Hong-Han Shuai 22 6 0 01 Oct 2024
Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models Function Chenyi Zhuang Ying Hu Pan Gao DiffM VLM 50 11 0 30 Sep 2024
Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation Dimitrios Christodoulou Mads Kuhlmann-Jørgensen EGVM 30 6 0 18 Sep 2024
ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images Abhinaw Jagtap Nachiket Tapas R. G. Brajesh EGVM 28 0 0 18 Sep 2024
Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection Federico Betti Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara N. Sebe DiffM 36 0 0 16 Sep 2024
Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$ -divergence Minimization Haoyuan Sun Bo Xia Yongzhe Chang Xueqian Wang EGVM 35 2 0 15 Sep 2024
Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning Hanyang Zhao Haoxian Chen Ji Zhang David D. Yao Wenpin Tang 48 3 0 12 Sep 2024
Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models Rohit Jena Ali Taghibakhshi Sahil Jain Gerald Shen Nima Tajbakhsh Arash Vahdat 42 3 0 09 Sep 2024
SPDiffusion: Semantic Protection Diffusion Models for Multi-concept Text-to-image Generation Yang Zhang Rui Zhang Xuecheng Nie Haochen Li Jikun Chen Yifan Hao Xin Zhang Luoqi Liu Ling Li 43 0 0 02 Sep 2024
ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty Xindi Wu Dingli Yu Yangsibo Huang Olga Russakovsky Sanjeev Arora CoGe EGVM 51 12 0 26 Aug 2024
Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models Chaohua Shi Xuan Wang Si Shi Xule Wang Mingrui Zhu Nannan Wang X. Gao CoGe 43 1 0 26 Aug 2024
Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching Minghao Liu Le Zhang Yingjie Tian Xiaochao Qu Luoqi Liu Ting Liu DiffM CoGe 37 2 0 25 Aug 2024
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting Liyao Jiang Negar Hassanpour Mohammad Salameh Mohan Sai Singamsetti Fengyu Sun Wei Lu Di Niu DiffM 82 1 0 21 Aug 2024
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models Agneet Chatterjee Yiran Luo Tejas Gokhale Yezhou Yang Chitta Baral LRM 37 5 0 05 Aug 2024
VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling Qian Zhang Xiangzi Dai Ninghua Yang Xiang An Ziyong Feng Xingyu Ren VLM CLIP 43 17 0 02 Aug 2024
Few-shot Defect Image Generation based on Consistency Modeling Qingfeng Shi Jing Wei Fei Shen Zheng Zhang 35 2 0 01 Aug 2024
The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation Yi Yao Chan-Feng Hsu Jhe-Hao Lin Hongxia Xie Terence Lin Yi-Ning Huang Hong-Han Shuai Wen-Huang Cheng DiffM 34 4 0 17 Jul 2024
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey Chenyu Zhang Mingwang Hu Wenhui Li Lanjun Wang 41 15 0 10 Jul 2024
MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis Wanggui He Siming Fu Mushui Liu Xierui Wang Wenyi Xiao ... Zhelun Yu Haoyuan Li Ziwei Huang Leilei Gan Hao Jiang DiffM 24 23 0 10 Jul 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 46 25 0 08 Jul 2024
Replication in Visual Diffusion Models: A Survey and Outlook Wenhao Wang Yifan Sun Zongxin Yang Zhengdong Hu Zhentao Tan Yi Yang 86 7 0 07 Jul 2024
PartCraft: Crafting Creative Objects by Parts Kam Woh Ng Xiatian Zhu Yi-Zhe Song Tao Xiang 42 6 0 05 Jul 2024
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis Dewei Zhou Y. Li Fan Ma Zongxin Yang Yuqing Yang 101 11 0 02 Jul 2024
Compositional Image Decomposition with Diffusion Models Jocelin Su Nan Liu Yanbo Wang Joshua B. Tenenbaum Yilun Du CoGe 47 6 0 27 Jun 2024
AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models Aishwarya Agarwal Srikrishna Karanam Balaji Vasan Srinivasan 36 1 0 27 Jun 2024
On Discrete Prompt Optimization for Diffusion Models Ruochen Wang Ting Liu Cho-Jui Hsieh Boqing Gong DiffM 36 6 0 27 Jun 2024
Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models Ziyi Wu Yulia Rubanova Rishabh Kabra Drew A. Hudson Igor Gilitschenski Yusuf Aytar Sjoerd van Steenkiste Kelsey R. Allen Thomas Kipf VGen DiffM 49 10 0 13 Jun 2024
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation Weixi Feng Jiachen Li Michael Stephen Saxon Tsu-jui Fu Wenhu Chen William Yang Wang EGVM VGen 38 9 0 12 Jun 2024
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? Xingyu Fu Muyu He Yujie Lu William Yang Wang Dan Roth EGVM LRM 31 15 0 11 Jun 2024
Compositional Video Generation as Flow Equalization Xingyi Yang Xinchao Wang DiffM VGen 61 7 0 10 Jun 2024
Tuning-Free Visual Customization via View Iterative Self-Attention Control Xiaojie Li Chenghao Gu Shuzhao Xie Yunpeng Bai Weixiang Zhang Zhi Wang 37 0 0 10 Jun 2024
OmniControlNet: Dual-stage Integration for Conditional Image Generation Yilin Wang Haiyang Xu Xiang Zhang Zeyuan Chen Zhizhou Sha Zirui Wang Zhuowen Tu VLM 34 15 0 09 Jun 2024
DiffusionPID: Interpreting Diffusion via Partial Information Decomposition Shaurya Dewan Rushikesh Zawar Prakanshul Saxena Yingshan Chang Andrew F. Luo Yonatan Bisk DiffM 46 4 0 07 Jun 2024
AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation Lianyu Pang Jian Yin Baoquan Zhao Feize Wu Fu Lee Wang Qing Li Xudong Mao DiffM 47 1 0 07 Jun 2024
DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks Haokun Zhou Yipeng Hong VLM EGVM 31 1 0 06 Jun 2024
ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization L. Eyring Shyamgopal Karthik Karsten Roth Alexey Dosovitskiy Zeynep Akata 78 17 0 06 Jun 2024
VideoTetris: Towards Compositional Text-to-Video Generation Ye Tian Ling Yang Haotian Yang Yuan Gao Yufan Deng ... Zhaochen Yu Xin Tao Pengfei Wan Di Zhang Bin Cui DiffM VGen 84 15 0 06 Jun 2024
Understanding the Impact of Negative Prompts: When and How Do They Take Effect? Yuanhao Ban Ruochen Wang Tianyi Zhou Minhao Cheng Boqing Gong Cho-Jui Hsieh 42 16 0 05 Jun 2024
The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise Yuanhao Ban Ruochen Wang Tianyi Zhou Boqing Gong Cho-Jui Hsieh Minhao Cheng DiffM 65 4 0 04 Jun 2024
Information Theoretic Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Massimo Gallo Pietro Michiardi 75 0 0 31 May 2024
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization Junjie Shentu Matthew Watson Noura Al Moubayed DiffM 49 0 0 28 May 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 90 6 0 27 May 2024
SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance Guibao Shen Luozhou Wang Jiantao Lin Wenhang Ge Chaozhe Zhang ... Pengfei Wan Zhong-ming Wang Guangyong Chen Yijun Li Yingcong Chen 40 8 0 24 May 2024
ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models Jingyuan Zhu Shiyu Li Yuxuan Liu Ping-Chia Huang Jiulong Shan Huimin Ma Jian Yuan 37 4 0 24 May 2024
Compositional Text-to-Image Generation with Dense Blob Representations Weili Nie Sifei Liu Morteza Mardani Chao Liu Benjamin Eckart Arash Vahdat DiffM 86 17 0 14 May 2024
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation Shengyuan Liu Bo Wang Ye Ma Te Yang Xipeng Cao Quan Chen Han Li Di Dong Peng Jiang EGVM 44 2 0 11 May 2024
Non-confusing Generation of Customized Concepts in Diffusion Models Wang Lin Jingyuan Chen Jiaxin Shi Yichen Zhu Chen Liang ... Tao Jin Zhou Zhao Fei Wu Shuicheng Yan Hanwang Zhang DiffM 48 11 0 11 May 2024
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation Yupeng Zhou Daquan Zhou Ming-Ming Cheng Jiashi Feng Qibin Hou DiffM VGen 46 88 0 02 May 2024