Training-Free Layout Control with Cross-Attention Guidance

6 April 2023

Andrea Vedaldi

Papers citing "Training-Free Layout Control with Cross-Attention Guidance"

45 / 45 papers shown

Title
InstanceGen: Image Generation with Instance-level Instructions Etai Sella Yanir Kleiman Hadar Averbuch-Elor 31 0 0 08 May 2025
Multi-turn Consistent Image Editing Zijun Zhou Yingying Deng Xiangyu He Weiming Dong Fan Tang 48 0 0 07 May 2025
Improving Editability in Image Generation with Layer-wise Memory Daneul Kim Jaeah Lee Jaesik Park DiffM KELM 55 0 0 02 May 2025
Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers Chunyang Zhang Zhenhong Sun Zhicheng Zhang Junyan Wang Yu Zhang Dong Gong H. Mo Daoyi Dong 37 0 0 14 Apr 2025
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control Nvidia Hassan Abu Alhaija Jose M. Alvarez Maciej Bala Tiffany Cai ... Yuchong Ye Xiaodong Yang X. Yang Xiaohui Zeng Yu Zeng VGen 90 1 0 18 Mar 2025
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models Runze He Bo Cheng Yuhang Ma Qingxiang Jia Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin DiffM VLM 47 0 0 13 Mar 2025
Consistent Image Layout Editing with Diffusion Models Tao Xia Yudi Zhang Ting Liu Lei Zhang DiffM 56 1 0 09 Mar 2025
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 120 2 0 20 Feb 2025
ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions Shiyue Zhang Zheng Chong Xi Lu Wenqing Zhang Haoxiang Li Xujie Zhang Jiehui Huang Xiao Dong Xiaodan Liang DiffM 42 0 0 21 Jan 2025
Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan 71 4 0 20 Jan 2025
Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation Ahmad Süleyman Göksel Biricik 45 2 0 15 Jan 2025
Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance Dongmin Park Sebin Kim Taehong Moon Minkyu Kim Kangwook Lee Jaewoong Cho DiffM CoGe 62 2 0 08 Jan 2025
Mojito: Motion Trajectory and Intensity Control for Video Generation Xuehai He Shuohang Wang Jianwei Yang Xiaoxia Wu Y. Wang Kuan-Chieh Jackson Wang Z. Zhan Olatunji Ruwase Yelong Shen X. Wang VGen 86 1 0 12 Dec 2024
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation Q. He Jinlong Peng P. Xu Boyuan Jiang Xiaobin Hu ... Y. Liu Y. Wang Chengjie Wang X. Li J. Zhang DiffM 120 1 0 04 Dec 2024
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 57 13 0 07 Nov 2024
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! Arash Marioriyad Mohammadali Banayeeanzade Reza Abbasi M. Rohban M. Baghshah DiffM 70 3 0 28 Oct 2024
TopoDiffusionNet: A Topology-aware Diffusion Model Saumya Gupta Dimitris Samaras C. L. P. Chen DiffM 34 4 0 22 Oct 2024
SceneCraft: Layout-Guided 3D Scene Generation Xiuyu Yang Yunze Man Jun-Kun Chen Yu-Xiong Wang 3DV 82 8 0 11 Oct 2024
DreamBeast: Distilling 3D Fantastical Animals with Part-Aware Knowledge Transfer Runjia Li Junlin Han Luke Melas-Kyriazi Chunyi Sun Zhaochong An Zhongrui Gui Shuyang Sun Philip Torr Tomas Jakab 36 1 0 12 Sep 2024
Training-Free Sketch-Guided Diffusion with Latent Optimization Sandra Zhang Ding Jiafeng Mao Kiyoharu Aizawa DiffM 91 2 0 31 Aug 2024
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models Ming-Kuan Wu Xinyue Cai Jiayi Ji Jiale Li Oucheng Huang Gen Luo Hao Fei Xiaoshuai Sun Rongrong Ji MLLM 40 7 0 31 Jul 2024
DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion Huiguo He Huan Yang Zixi Tuo Yuan Zhou Qiuyue Wang Yuhang Zhang Zeyu Liu Wenhao Huang Hongyang Chao Jian Yin DiffM VGen 54 12 0 17 Jul 2024
Sketch-Guided Scene Image Generation Tianyu Zhang Xiaoxuan Xie Xusheng Du H. Xie DiffM 38 2 0 09 Jul 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 41 25 0 08 Jul 2024
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis Dewei Zhou Y. Li Fan Ma Zongxin Yang Y. Yang 91 11 0 02 Jul 2024
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language Yicheng Chen Xiangtai Li Yining Li Yanhong Zeng Jianzong Wu Xiangyu Zhao Kai Chen VLM DiffM 56 3 0 28 Jun 2024
User-Friendly Customized Generation with Multi-Modal Prompts Linhao Zhong Yan Hong Wentao Chen Binglin Zhou Yiyi Zhang Jianfu Zhang Liqing Zhang DiffM 37 0 0 26 May 2024
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation Shengyuan Liu Bo Wang Ye Ma Te Yang Xipeng Cao Quan Chen Han Li Di Dong Peng Jiang EGVM 36 2 0 11 May 2024
A Survey on Personalized Content Synthesis with Diffusion Models Xu-Lu Zhang Xiao Wei Wengyu Zhang Jinlin Wu Zhaoxiang Zhang Zhen Lei Qing Li Zhen Lei Qing Li EGVM 137 19 0 09 May 2024
DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing Minghao Chen Iro Laina Andrea Vedaldi 3DGS 40 23 0 29 Apr 2024
ObjectAdd: Adding Objects into Image via a Training-Free Diffusion Modification Fashion Ziyue Zhang Mingbao Lin Rongrong Ji Yuxin Zhang Rongrong Ji DiffM 51 3 0 26 Apr 2024
Move Anything with Layered Scene Diffusion Jiawei Ren Mengmeng Xu Jui-Chieh Wu Ziwei Liu Tao Xiang Antoine Toisoul 21 9 0 10 Apr 2024
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li-xin Yuan Jiebo Luo VGen 73 33 0 07 Apr 2024
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis Yumeng Li William H. Beluch M. Keuper Dan Zhang Anna Khoreva DiffM VGen 76 5 0 20 Mar 2024
ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 41 1 0 15 Mar 2024
PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis Zheng Lv Yuxiang Wei Wangmeng Zuo Kwan-Yee K. Wong 39 14 0 04 Mar 2024
InstanceDiffusion: Instance-level Control for Image Generation Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 32 84 0 05 Feb 2024
Spatial-Aware Latent Initialization for Controllable Image Generation Wenqiang Sun Tengtao Li Zehong Lin Jun Zhang 31 10 0 29 Jan 2024
RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing Shutong Jin Ruiyu Wang Florian T. Pokorny DiffM VGen 81 1 0 19 Dec 2023
InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models Jiun Tian Hoe Xudong Jiang Chee Seng Chan Yap-Peng Tan Weipeng Hu 19 11 0 10 Dec 2023
Masked Diffusion Models Are Fast Distribution Learners Jiachen Lei Qinglong Wang Pengyu Cheng Zhongjie Ba Zhan Qin Zhibo Wang Zhenguang Liu Kui Ren DiffM 21 2 0 20 Jun 2023
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation Minghui Hu Jianbin Zheng Daqing Liu Chuanxia Zheng Chaoyue Wang Dacheng Tao Tat-Jen Cham DiffM 25 9 0 01 Jun 2023
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing Senmao Li Joost van de Weijer Taihang Hu F. Khan Qibin Hou Yaxing Wang Jian Yang DiffM 31 52 0 28 Mar 2023
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,774 0 24 Feb 2021
Image Generation from Scene Graphs Justin Johnson Agrim Gupta Li Fei-Fei GNN 223 815 0 04 Apr 2018