Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis

9 December 2022

Papers citing "Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis"

50 / 263 papers shown

Title
Obtaining Favorable Layouts for Multiple Object Generation Barak Battash Amit Rozner Lior Wolf Ofir Lindenbaum DiffM 48 2 0 01 May 2024
ObjectAdd: Adding Objects into Image via a Training-Free Diffusion Modification Fashion Ziyue Zhang Mingbao Lin Rongrong Ji Yuxin Zhang Rongrong Ji DiffM 59 3 0 26 Apr 2024
Editable Image Elements for Controllable Synthesis Jiteng Mu Michael Gharbi Richard Zhang Eli Shechtman Nuno Vasconcelos Xiaolong Wang Taesung Park DiffM 53 9 0 24 Apr 2024
GLoD: Composing Global Contexts and Local Details in Image Generation Moyuru Yamada DiffM 27 1 0 23 Apr 2024
Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion Hongyu Chen Yi-Meng Gao Min Zhou Peng Wang Xubin Li Tiezheng Ge Bo Zheng DiffM 25 5 0 23 Apr 2024
Towards Better Text-to-Image Generation Alignment via Attention Modulation Yihang Wu Xiao Cao Kaixin Li Zitan Chen Haonan Wang Lei Meng Zhiyong Huang DiffM 34 5 0 22 Apr 2024
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models Nithin Gopalakrishnan Nair Jeya Maria Jose Valanarasu Vishal M. Patel MoMe 33 7 0 15 Apr 2024
Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models Yasi Zhang Peiyu Yu Yingnian Wu DiffM 48 10 0 10 Apr 2024
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing Jing Gu Yilin Wang Nanxuan Zhao Wei Xiong Qing Liu Zhifei Zhang He Zhang Jianming Zhang HyunJoon Jung Xin Eric Wang DiffM 32 8 0 08 Apr 2024
MC $^2$ : Multi-concept Guidance for Customized Multi-concept Generation Jiaxiu Jiang Yabo Zhang Kailai Feng Xiaohe Wu Wangmeng Zuo DiffM 36 11 0 08 Apr 2024
InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization Xiefan Guo Jinlin Liu Miaomiao Cui Jiankai Li Hongyu Yang Di Huang 36 25 0 06 Apr 2024
Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs Junhao Chen Xiang Li Xiaojun Ye Chao Li Zhaoxin Fan Hao Zhao VGen 3DV 205 4 0 05 Apr 2024
Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) Michael Stephen Saxon Fatima Jahara Mahsa Khoshnoodi Yujie Lu Aditya Sharma William Yang Wang EGVM 28 10 0 05 Apr 2024
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching Dongzhi Jiang Guanglu Song Xiaoshi Wu Renrui Zhang Dazhong Shen Zhuofan Zong Yu Liu Hongsheng Li VLM 35 20 0 04 Apr 2024
CosmicMan: A Text-to-Image Foundation Model for Humans Shikai Li Jianglin Fu Kaiyuan Liu Wentao Wang Kwan-Yee Lin Wayne Wu DiffM 40 19 0 01 Apr 2024
A Unified and Interpretable Emotion Representation and Expression Generation Reni Paskaleva Mykyta Holubakha Andela Ilic Saman Motamed Luc Van Gool D. Paudel 41 2 0 01 Apr 2024
Getting it Right: Improving Spatial Consistency in Text-to-Image Models Agneet Chatterjee Gabriela Ben-Melech Stan Estelle Aflalo Sayak Paul Dhruba Ghosh ... Ludwig Schmidt Hanna Hajishirzi Vasudev Lal Chitta Baral Yezhou Yang EGVM VLM 59 15 0 01 Apr 2024
Relation Rectification in Diffusion Model Yinwei Wu Xingyi Yang Xinchao Wang 28 6 0 29 Mar 2024
CLoRA: A Contrastive Approach to Compose Multiple LoRA Models Tuna Han Salih Meral Enis Simsar Federico Tombari Pinar Yanardag MoMe 34 0 0 28 Mar 2024
Attention Calibration for Disentangled Text-to-Image Personalization Yanbing Zhang Mengping Yang Qin Zhou Zhe Wang 34 15 0 27 Mar 2024
Improving Text-to-Image Consistency via Automatic Prompt Optimization Oscar Manas Pietro Astolfi Melissa Hall Candace Ross Jack Urbanek Adina Williams Aishwarya Agrawal Adriana Romero Soriano M. Drozdzal 36 27 0 26 Mar 2024
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation Omer Dahary Or Patashnik Kfir Aberman Daniel Cohen-Or DiffM 40 28 0 25 Mar 2024
Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization Jimyeong Kim Jungwon Park Wonjong Rhee DiffM 35 5 0 22 Mar 2024
Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing Hangeol Chang Jinho Chang Jong Chul Ye DiffM 39 3 0 20 Mar 2024
AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation Jingkun An Yinghao Zhu Zongjian Li Haoran Feng Bohua Chen Yemin Shi Chengwei Pan 40 2 0 20 Mar 2024
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis Yumeng Li William H. Beluch M. Keuper Dan Zhang Anna Khoreva DiffM VGen 84 5 0 20 Mar 2024
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data Jialu Li Jaemin Cho Yi-Lin Sung Jaehong Yoon Mohit Bansal MoMe DiffM 47 8 0 11 Mar 2024
DivCon: Divide and Conquer for Progressive Text-to-Image Generation Yuhao Jia Wenhan Tan DiffM 57 1 0 11 Mar 2024
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models Yang Zhang Teoh Tze Tzun Lim Wei Hern Tiviatis Sim Kenji Kawaguchi DiffM 30 9 0 11 Mar 2024
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation Junyan Wang Zhenhong Sun Zhiyu Tan Xuanbai Chen Weihua Chen Hao Li Cheng Zhang Yang Song 37 9 0 08 Mar 2024
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment Xiwei Hu Rui Wang Yixiao Fang Bin-Bin Fu Pei Cheng Gang Yu VLM 59 70 0 08 Mar 2024
PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering Yibin Wang Weizhong Zhang Jianwei Zheng Cheng Jin DiffM 71 9 0 08 Mar 2024
Discriminative Probing and Tuning for Text-to-Image Generation Leigang Qu Wenjie Wang Yongqi Li Hanwang Zhang Liqiang Nie Tat-Seng Chua 38 7 0 07 Mar 2024
Controllable Generation with Text-to-Image Diffusion Models: A Survey Pu Cao Feng Zhou Qing-Huang Song Lu Yang 72 35 0 07 Mar 2024
Box It to Bind It: Unified Layout Control and Attribute Binding in T2I Diffusion Models Ashkan Taghipour Morteza Ghahremani Bennamoun Aref Miri Rekavandi Hamid Laga F. Boussaïd DiffM 37 5 0 27 Feb 2024
Multi-LoRA Composition for Image Generation Ming Zhong Yelong Shen Shuohang Wang Yadong Lu Yizhu Jiao Siru Ouyang Donghan Yu Jiawei Han Weizhu Chen MoMe 43 37 0 26 Feb 2024
Referee Can Play: An Alternative Approach to Conditional Generation via Model Inversion Xuantong Liu Tianyang Hu Wenjia Wang Kenji Kawaguchi Yuan Yao DiffM 75 3 0 26 Feb 2024
Layout-to-Image Generation with Localized Descriptions using ControlNet with Cross-Attention Control Denis Lukovnikov Asja Fischer DiffM 32 3 0 20 Feb 2024
RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models Xinchen Zhang Ling Yang Yaqi Cai Zhaochen Yu Kai-Ni Wang ... Ye Tian Minkai Xu Yong Tang Yujiu Yang Bin Cui DiffM 34 5 0 20 Feb 2024
MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion Sen Li Ruochen Wang Cho-Jui Hsieh Minhao Cheng Tianyi Zhou MLLM LM&Ro 42 3 0 20 Feb 2024
Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation Junjie Shentu Matthew Watson Noura Al Moubayed 20 0 0 15 Feb 2024
Human Aesthetic Preference-Based Large Text-to-Image Model Personalization: Kandinsky Generation as an Example Aven Le Zhou Yu-Ao Wang Wei Wu Kang Zhang 19 1 0 09 Feb 2024
MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis Dewei Zhou You Li Fan Ma Zongxin Yang Yi Yang DiffM 20 57 0 08 Feb 2024
InstanceDiffusion: Instance-level Control for Image Generation Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 34 84 0 05 Feb 2024
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs Ling Yang Zhaochen Yu Chenlin Meng Minkai Xu Stefano Ermon Bin Cui CoGe DiffM 48 115 0 22 Jan 2024
Large-scale Reinforcement Learning for Diffusion Models Yinan Zhang Eric Tzeng Yilun Du Dmitry Kislyuk VLM 33 31 0 20 Jan 2024
Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering Chang Yu Junran Peng Xiangyu Zhu Zhaoxiang Zhang Qi Tian Zhen Lei DiffM 35 4 0 12 Jan 2024
PALP: Prompt Aligned Personalization of Text-to-Image Models Moab Arar Andrey Voynov Amir Hertz Omri Avrahami Shlomi Fruchter Yael Pritch Daniel Cohen-Or Ariel Shamir DiffM 29 21 0 11 Jan 2024
Memory-Efficient Fine-Tuning for Quantized Diffusion Model Hyogon Ryu Seohyun Lim Hyunjung Shim DiffM MQ 27 6 0 09 Jan 2024
Semantic Guidance Tuning for Text-To-Image Diffusion Models Hyun Kang Dohae Lee Myungjin Shin In-Kwon Lee 29 1 0 26 Dec 2023