SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

4 July 2023

ArXiv (abs)PDF HTML Github (25942★)

Papers citing "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis"

50 / 608 papers shown

Title
Using Knowledge Graphs to harvest datasets for efficient CLIP model training Simon Ging Sebastian Walter Jelena Bratulić Johannes Dienert Hannah Bast Thomas Brox CLIP 65 0 0 05 May 2025
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation Mingcheng Li Xiaolu Hou Ziyang Liu Jinjie Wei Ziyun Qian Jiawei Chen Jinjie Wei Yiheng Jiang Qingyao Xu Li Zhang DiffM 494 0 0 05 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan ... Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 315 1 0 05 May 2025
Improving Physical Object State Representation in Text-to-Image Generative Systems Tianle Chen Chaitanya Chakka Deepti Ghadiyaram 126 0 0 04 May 2025
Rethinking Score Distilling Sampling for 3D Editing and Generation Xingyu Miao Haoran Duan Yang Long Jiawei Han 95 1 0 03 May 2025
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation D. Zhang Che Jiang Ruoshi Xu Biaoxiang Chen Zijian Jin Yutian Lu Jianguo Zhang Liang Yong Jiebo Luo Shengda Luo VLM 116 1 0 02 May 2025
Improving Editability in Image Generation with Layer-wise Memory Daneul Kim Jaeah Lee Jaesik Park DiffM KELM 150 0 0 02 May 2025
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT D. Jiang Ziyu Guo Renrui Zhang Zhuofan Zong Hao Li Le Zhuo Shilin Yan Pheng-Ann Heng Haoyang Li LRM 192 24 0 01 May 2025
Multi-Modal Language Models as Text-to-Image Model Evaluators Jiahui Chen Candace Ross Reyhane Askari Hemmat Koustuv Sinha Melissa Hall M. Drozdzal Adriana Romero-Soriano EGVM 105 0 0 01 May 2025
InstructAttribute: Fine-grained Object Attributes editing with Instruction Xingxi Yin Jingfeng Zhang Zhi Li You Li Yanzhe Zhang Yin Zhang DiffM 455 1 0 01 May 2025
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil Yi-Lin Sung Peter Hase Jie Peng Jen-tse Huang Joey Tianyi Zhou AAML MU 285 4 0 01 May 2025
Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing Hong Zhang Zhongjie Duan Xingjun Wang Yuze Zhao Weiyi Lu Zhipeng Di Yongjun Xu Yingda Chen Yu Zhang MLLM 184 6 0 30 Apr 2025
T2ID-CAS: Diffusion Model and Class Aware Sampling to Mitigate Class Imbalance in Neck Ultrasound Anatomical Landmark Detection Manikanta Varaganti Amulya Vankayalapati Nour Awad Gregory R. Dion Laura J. Brattain DiffM MedIm 112 0 0 29 Apr 2025
Heat Diffusion Models -- Interpixel Attention Mechanism Pengfei Zhang Shouqing Jia DiffM VLM 49 0 0 28 Apr 2025
REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models Gal Almog Ariel Shamir Ohad Fried DiffM 75 0 0 26 Apr 2025
RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning Haoran Geng Feishi Wang Songlin Wei Yuchen Li Bangjun Wang ... Hao Dong Siyuan Huang Yue Wang Jitendra Malik Pieter Abbeel 192 8 0 26 Apr 2025
Step1X-Edit: A Practical Framework for General Image Editing Shixuan Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Wei Wei Gang Yu Daxin Jiang DiffM 251 24 0 24 Apr 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 181 4 0 24 Apr 2025
Structure-Preserving Zero-Shot Image Editing via Stage-Wise Latent Injection in Diffusion Models Dasol Jeong Donggoo Kang Jiwon Park Hyebean Lee Joonki Paik DiffM 104 0 0 22 Apr 2025
Novel Concept-Oriented Synthetic Data approach for Training Generative AI-Driven Crystal Grain Analysis Using Diffusion Model Ahmed Sobhi Saleh Kristof Croes Hajdin Ceric Ingrid De Wolf Houman Zahedmanesh DiffM 78 0 0 21 Apr 2025
A Controllable Appearance Representation for Flexible Transfer and Editing Santiago Jimenez-Navarro Julia Guerrero-Viu B. Masiá DiffM 87 0 0 21 Apr 2025
Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis Zichuan Liu Liming Jiang Qing Yan Yumin Jia Hao Kang Xin Lu DiffM 150 0 0 19 Apr 2025
Anti-Aesthetics: Protecting Facial Privacy against Customized Text-to-Image Synthesis Songping Wang Yueming Lyu Shiqi Liu Ning Li Tong Tong Hao Sun Caifeng Shan PICV 141 0 0 16 Apr 2025
Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach Lvpan Cai Haowei Wang Jiayi Ji YanShu ZhouMen Yiwei Ma Xiaoshuai Sun Liujuan Cao Rongrong Ji ViT 88 1 0 16 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 182 1 0 16 Apr 2025
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception Ziqi Pang Xin Xu Yu-Xiong Wang DiffM 199 0 0 15 Apr 2025
PT-Mark: Invisible Watermarking for Text-to-image Diffusion Models via Semantic-aware Pivotal Tuning Yansen Wang Huiyu Xu Peng Kuang Jiacheng Du Hui Yuan Yiming Li Qiu Wang Kui Ren WIGM 166 0 0 15 Apr 2025
Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers Chunyang Zhang Zhenhong Sun Zhicheng Zhang Junyan Wang Yu Zhang Dong Gong H. Mo Daoyi Dong 95 0 0 14 Apr 2025
InstructEngine: Instruction-driven Text-to-Image Alignment Xingyu Lu Yihan Hu Yuanxing Zhang Kaiyu Jiang Changyi Liu ... Bin Wen C. Yuan Fan Yang Yan Li Di Zhang 127 0 0 14 Apr 2025
SPICE: A Synergistic, Precise, Iterative, and Customizable Image Editing Workflow Kenan Tang Yanhong Li Yao Qin DiffM 93 0 0 13 Apr 2025
Flux Already Knows -- Activating Subject-Driven Image Generation without Training Hao Kang Stathi Fotiadis Liming Jiang Qing Yan Yumin Jia Zichuan Liu Min Jin Chong Xin Lu 77 1 0 12 Apr 2025
Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization Gen Li Yang Xiao Jie Ji Kaiyuan Deng Bo Hui Linke Guo Xiaolong Ma 68 0 0 12 Apr 2025
ID-Booth: Identity-consistent Face Generation with Diffusion Models Darian Tomašević Fadi Boutros Chenhao Lin Naser Damer Vitomir Štruc Peter Peer DiffM 137 1 0 10 Apr 2025
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment Jiayang Sun Hongru Wang Jie Cao Huaibo Huang Ran He DiffM 116 0 0 10 Apr 2025
Probability Density Geodesics in Image Diffusion Latent Space Qingtao Yu Jaskirat Singh Zhaoyuan Yang Peter Tu Jing Zhang Hongdong Li Richard Hartley Dylan Campbell DiffM 143 1 0 09 Apr 2025
Compass Control: Multi Object Orientation Control for Text-to-Image Generation Rishubh Parihar Vaibhav Agrawal Sachidanand VS R. V. Babu DiffM 124 0 0 09 Apr 2025
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance Jiazi Bu Pengyang Ling Yujie Zhou Pan Zhang Tong Wu Xiaoyi Dong Yuhang Zang Yuhang Cao Dahua Lin Jiaqi Wang 90 0 0 08 Apr 2025
Video-Bench: Human-Aligned Video Generation Benchmark Hui Han Siyuan Li Jiaqi Chen Yiwen Yuan Yuling Wu ... You Li Jing Zhang Chi Zhang Li Li Yongxin Ni EGVM VGen 214 0 0 07 Apr 2025
Gaussian Mixture Flow Matching Models Hansheng Chen Kai Zhang Hao Tan Zexiang Xu Fujun Luan Leonidas Guibas Gordon Wetzstein Sai Bi DiffM 147 2 0 07 Apr 2025
PartStickers: Generating Parts of Objects for Rapid Prototyping Mo Zhou Josh Myers-Dean Danna Gurari 102 0 0 07 Apr 2025
Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing Hui Liu Bin Zou Suiyun Zhang Kecheng Chen Rui Liu Haoliang Li DiffM 136 0 0 07 Apr 2025
LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders Ilan Naiman Emanuel Ben-Baruch Oron Anschel Alon Shoshan Igor Kviatkovsky Manoj Aggarwal Gérard Medioni 87 0 0 04 Apr 2025
Physics-informed 4D X-ray image reconstruction from ultra-sparse spatiotemporal data Zisheng Yao Yuhe Zhang Zhe Hu Robert Klöfkorn Tobias Ritschel Pablo Villanueva-Perez AI4CE 136 0 0 04 Apr 2025
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets Chuning Zhu Raymond Yu S. Feng Benjamin Burchfiel Paarth Shah Abhishek Gupta VGen 165 7 0 03 Apr 2025
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning Xianwei Zhuang Yuxin Xie Yufan Deng Dongchao Yang Liming Liang Jinghan Ru Yuguo Yin Yuexian Zou 160 5 0 03 Apr 2025
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation Zhiyuan Yan Junyan Ye Weijia Li Zilong Huang Shenghai Yuan Xiangyang He Kaiqing Lin Jun-Jian He Conghui He Li Yuan MLLM EGVM 191 24 0 03 Apr 2025
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing Xiangyu Zhao Peiyuan Zhang Kexian Tang Hao Li Zicheng Zhang ... Guangtao Zhai Junchi Yan Hua Yang Xue Yang Haodong Duan VLM LRM 161 6 0 03 Apr 2025
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis Zixuan Wang Duo Peng Feng Chen Yue Yang Yinjie Lei DiffM 144 0 0 02 Apr 2025
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction Junhao Cheng Yuying Ge Yixiao Ge Jing Liao Ying Shan VGen AI4CE 132 4 0 01 Apr 2025
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations Chongjie Si Zhiyi Shi Xuehui Wang Yichen Xiao Xiaokang Yang Wei Shen AI4CE 156 0 0 01 Apr 2025