SpaText: Spatio-Textual Representation for Controllable Image Generation

25 November 2022

Devi Parikh

Papers citing "SpaText: Spatio-Textual Representation for Controllable Image Generation"

43 / 43 papers shown

Title
VSC: Visual Search Compositional Text-to-Image Diffusion Model Do Huu Dat Nam Hyeonu Po Yuan Mao Tae-Hyun Oh DiffM CoGe 64 0 0 02 May 2025
PT-Mark: Invisible Watermarking for Text-to-image Diffusion Models via Semantic-aware Pivotal Tuning Yixuan Wang Huiyu Xu Zhibo Wang Jiacheng Du Zehan Li Yiming Li Qiu Wang Kui Ren WIGM 54 0 0 15 Apr 2025
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models Fernando Julio Cendra Kai Han VLM 58 0 0 25 Mar 2025
Spherical Dense Text-to-Image Synthesis Timon Winter Stanislav Frolov Brian B. Moser Andreas Dengel MDE DiffM 83 0 0 18 Feb 2025
ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions Shiyue Zhang Zheng Chong Xi Lu Wenqing Zhang Haoxiang Li Xujie Zhang Jiehui Huang Xiao Dong Xiaodan Liang DiffM 42 0 0 21 Jan 2025
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 62 13 0 07 Nov 2024
On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models Tariq Berrada Ifriqi Pietro Astolfi Melissa Hall Reyhane Askari Hemmat Yohann Benchetrit ... Matthew Muckley Karteek Alahari Adriana Romero Soriano Jakob Verbeek M. Drozdzal AI4CE VLM 54 2 0 05 Nov 2024
Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation Jiaxin Cheng Zixu Zhao Tong He Tianjun Xiao Yicong Zhou Zheng Zhang DiffM 44 0 0 07 Sep 2024
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models Yichen Sun Zhixuan Chu Zhan Qin Kui Ren DiffM 35 0 0 24 Jun 2024
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance Kuan Heng Lin Sicheng Mo Ben Klingher Fangzhou Mu Bolei Zhou DiffM 31 15 0 11 Jun 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 90 6 0 27 May 2024
User-Friendly Customized Generation with Multi-Modal Prompts Linhao Zhong Yan Hong Wentao Chen Binglin Zhou Yiyi Zhang Jianfu Zhang Liqing Zhang DiffM 45 0 0 26 May 2024
TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation Tianyi Liang Jiangqi Liu Sicheng Song Shiqi Jiang Yifei Huang Changbo Wang Chenhui Li 42 0 0 18 Apr 2024
SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions Xiaoyu Liu Yuxiang Wei Ming-Yu Liu Xianhui Lin Peiran Ren Xuansong Xie Wangmeng Zuo DiffM 47 5 0 09 Apr 2024
SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model Tao Wu Xuewei Li Zhongang Qi Di Hu Xintao Wang Ying Shan Xi Li 38 5 0 15 Mar 2024
ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 43 1 0 15 Mar 2024
PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis Zheng Lv Yuxiang Wei Wangmeng Zuo Kwan-Yee K. Wong 41 14 0 04 Mar 2024
TCIG: Two-Stage Controlled Image Generation with Quality Enhancement through Diffusion Salaheldin Mohamed 30 0 0 02 Mar 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 66 85 0 27 Feb 2024
InstanceDiffusion: Instance-level Control for Image Generation Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 34 84 0 05 Feb 2024
Spatial-Aware Latent Initialization for Controllable Image Generation Wenqiang Sun Tengtao Li Zehong Lin Jun Zhang 39 10 0 29 Jan 2024
InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models Jiun Tian Hoe Xudong Jiang Chee Seng Chan Yap-Peng Tan Weipeng Hu 19 11 0 10 Dec 2023
Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation Biao Gong Siteng Huang Yutong Feng Shiwei Zhang Yuyuan Li Yu Liu DiffM 29 11 0 27 Nov 2023
What's left can't be right -- The remaining positional incompetence of contrastive vision-language models Nils Hoehing Ellen Rushe Anthony Ventresque VLM 18 2 0 20 Nov 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani Xiaozhong Liu 78 31 0 27 Aug 2023
Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation Yuki Endo 33 8 0 11 Aug 2023
Continuous Layout Editing of Single Images with Diffusion Models Zhiyuan Zhang Zhitong Huang J. Liao DiffM 21 10 0 22 Jun 2023
Differential Diffusion: Giving Each Pixel Its Strength E. Levin Ohad Fried DiffM 37 20 0 01 Jun 2023
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models Long Lian Boyi Li Adam Yala Trevor Darrell 43 152 0 23 May 2023
Guided Image Synthesis via Initial Image Editing in Diffusion Model Jiafeng Mao Xueting Wang Kiyoharu Aizawa DiffM 32 52 0 05 May 2023
Expressive Text-to-Image Generation with Rich Text Songwei Ge Taesung Park Jun-Yan Zhu Jia-Bin Huang DiffM 79 79 0 13 Apr 2023
MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path Qian Wang Biao Zhang Michael Birsak Peter Wonka DiffM 30 17 0 29 Mar 2023
Collage Diffusion Vishnu Sarukkai Linden Li Arden Ma Christopher Ré Kayvon Fatahalian DiffM 22 23 0 01 Mar 2023
Modulating Pretrained Diffusion Models for Multimodal Image Synthesis Cusuh Ham James Hays Jingwan Lu Krishna Kumar Singh Zhifei Zhang Tobias Hinz DiffM 21 24 0 24 Feb 2023
Unsupervised Discovery of Semantic Latent Directions in Diffusion Models Yong-Hyun Park Mingi Kwon Junghyo Jo Youngjung Uh DiffM 38 22 0 24 Feb 2023
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation Omer Bar-Tal Lior Yariv Y. Lipman Tali Dekel 45 365 1 16 Feb 2023
Dreamix: Video Diffusion Models are General Video Editors Eyal Molad Eliahu Horwitz Dani Valevski Alex Rav-Acha Yossi Matias Yael Pritch Yaniv Leviathan Yedid Hoshen DiffM VGen 25 181 0 02 Feb 2023
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models Hila Chefer Yuval Alaluf Yael Vinker Lior Wolf Daniel Cohen-Or DiffM 73 497 0 31 Jan 2023
Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen Hexiang Hu Chitwan Saharia William W. Cohen VLM 125 161 0 29 Sep 2022
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 194 1,143 0 10 Sep 2022
Blended Latent Diffusion Omri Avrahami Ohad Fried Dani Lischinski DiffM 56 373 0 06 Jun 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,450 0 21 Nov 2016