HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation

HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation

10 May 2025

Papers citing "HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation"

15 / 15 papers shown

Title
Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models Xiyu Wang Yufei Wang Satoshi Tsutsui Weisi Lin Bihan Wen Alex C. Kot 76 6 0 20 May 2024
Spatial-Aware Latent Initialization for Controllable Image Generation Wenqiang Sun Tengtao Li Zehong Lin Jun Zhang 61 11 0 29 Jan 2024
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis Peiang Zhao Han Li Ruiyang Jin S. Kevin Zhou DiffM 73 13 0 21 Nov 2023
Text-to-Image Generation for Abstract Concepts Jiayi Liao Xu Chen Qiang Fu Lun Du Xiangnan He Xiang Wang Shi Han Dongmei Zhang 75 14 0 26 Sep 2023
BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion Jinheng Xie Yuexiang Li Yawen Huang Haozhe Liu Wentian Zhang Yefeng Zheng Mike Zheng Shou DiffM 106 200 0 20 Jul 2023
Grounded Text-to-Image Synthesis with Attention Refocusing Quynh Phung Songwei Ge Jia-Bin Huang DiffM 48 111 0 08 Jun 2023
Training-Free Layout Control with Cross-Attention Guidance Minghao Chen Iro Laina Andrea Vedaldi DiffM 164 233 0 06 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.2K 14,179 0 15 Mar 2023
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation Omer Bar-Tal Lior Yariv Y. Lipman Tali Dekel 73 382 1 16 Feb 2023
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 360 5,978 0 23 May 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 348 6,830 0 13 Apr 2022
Improving Text-to-Image Synthesis Using Contrastive Learning Hui Ye Xiulong Yang Martin Takáč Rajshekhar Sunderraman Shihao Ji 63 83 0 06 Jul 2021
Cross-Modal Contrastive Learning for Text-to-Image Generation Han Zhang Jing Yu Koh Jason Baldridge Honglak Lee Yinfei Yang GAN 122 361 0 12 Jan 2021
Controllable Text-to-Image Generation Bowen Li Xiaojuan Qi Thomas Lukasiewicz Philip Torr GAN 84 354 0 16 Sep 2019
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 379 43,524 0 01 May 2014