SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

4 July 2023

ArXiv (abs)PDF HTML Github (25942★)

Papers citing "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis"

50 / 608 papers shown

Title
ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion Rana Muhammad Shahroz Khan Dongwen Tang Pingzhi Li Kai Wang Tianlong Chen AI4CE 526 1 0 31 Mar 2025
DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution Zheng-Peng Duan Jiawei Zhang Xin Jin Zhe Zhang Zheng Xiong Dongqing Zou Jimmy S. Ren Chun-Le Guo Chongyi Li 107 0 0 30 Mar 2025
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning Hang Guo Yawei Li Taolin Zhang Jiadong Wang Tao Dai Shu-Tao Xia Luca Benini 162 5 0 30 Mar 2025
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes Nikai Du Zhennan Chen Zheyu Chen Shan Gao Xi Chen Zhengkai Jiang Jian Yang Ying Tai DiffM 78 3 0 30 Mar 2025
Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation H. Seo Junseo Bang Haechang Lee Joohoon Lee Byung Hyun Lee Se Young Chun 121 0 0 29 Mar 2025
SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System Hyeongju Kim Jinhyeok Yang Yechan Yu Seunghun Ji Jacob Morton Frederik Bous Joon Byun Juheon Lee 149 0 0 29 Mar 2025
Semantix: An Energy Guided Sampler for Semantic Style Transfer Huiang He Minghui Hu C. Zheng Chaoyue Wang Tat-Jen Cham DiffM 88 0 0 28 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu Wentao Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 461 6 0 27 Mar 2025
Latent Beam Diffusion Models for Decoding Image Sequences Guilherme Fernandes Vasco Ramos Regev Cohen Idan Szpektor João Magalhães 166 1 0 26 Mar 2025
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models Prin Phunyaphibarn Phillip Y. Lee Jaihoon Kim Minhyuk Sung DiffM 184 1 0 26 Mar 2025
LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration Yuyao Zhang Jinghao Li Yu-Wing Tai DiffM 164 2 0 25 Mar 2025
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model Zhiqiang Zhang Jia-Nan Li Zunnan Xu Hanhui Li Yiji Cheng Fa-Ting Hong Qin Lin Qinglin Lu Xiaodan Liang DiffM 140 2 0 25 Mar 2025
PCM : Picard Consistency Model for Fast Parallel Sampling of Diffusion Models Junhyuk So Jiwoong Shin Chaeyeon Jang Eunhyeok Park DiffM 129 0 0 25 Mar 2025
A Multi-Agent Framework Integrating Large Language Models and Generative AI for Accelerated Metamaterial Design Jie Tian Martin Taylor Sobczak Dhanush Patil Jixin Hou Lin Pang ... Yuval Golan Xiaoming Zhai Hongyue Sun Kenan Song Xiaobei Wang LLMAG AI4CE 147 0 0 25 Mar 2025
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 127 7 0 24 Mar 2025
ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation Guosheng Zhao Xiaofeng Wang Chaojun Ni Zheng Zhu Wenkang Qin Guan Huang Xingang Wang 127 2 0 24 Mar 2025
TCFG: Tangential Damping Classifier-free Guidance Mingi Kwon Shin seong Kim Jaeseok Jeong. Yi Ting Hsiao Youngjung Uh DiffM 109 0 0 23 Mar 2025
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models Ketan Suhaas Saichandran Xavier Thomas Prakhar Kaushik Deepti Ghadiyaram DiffM 153 1 0 22 Mar 2025
UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models Fanghua Yu Jinjin Gu Jinfan Hu Zheyuan Li Chao Dong DiffM 106 0 0 21 Mar 2025
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers Ruichen Chen Keith G. Mills Di Niu MQ 152 0 0 19 Mar 2025
SimWorld: A Unified Benchmark for Simulator-Conditioned Scene Generation via World Model Xinqing Li Ruiqi Song Qingyu Xie Ye Wu Nanxin Zeng Yunfeng Ai VGen SyDa 107 2 0 18 Mar 2025
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark Forouzan Fallah Maitreya Patel Agneet Chatterjee Vlad I. Morariu Chitta Baral Yezhou Yang CoGe 116 1 0 17 Mar 2025
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode Junjia Huang Pengxiang Yan Jinhang Cai Jiyang Liu Zhao Wang Yitong Wang Xinglong Wu Guanbin Li DiffM 93 0 0 17 Mar 2025
Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation Yihong Luo Tianyang Hu Weijian Luo Kenji Kawaguchi Jing Tang EGVM 461 0 0 17 Mar 2025
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation Daniil Selikhanovych David Li Aleksei Leonov Nikita Gushchin Sergei Kushneriuk Alexander N. Filippov Evgeny Burnaev Iaroslav Koshelev Alexander Korotin DiffM 157 0 0 17 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 186 3 0 17 Mar 2025
Personalize Anything for Free with Diffusion Transformer Haoran Feng Zehuan Huang Lin Li Hairong Lv Lu Sheng DiffM 152 5 0 16 Mar 2025
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-Jui Fu Yusu Qian Chen Chen Wenze Hu Zhe Gan Yue Yang 221 2 0 16 Mar 2025
Tailor: An Integrated Text-Driven CG-Ready Human and Garment Generation System Zhiyao Sun Yu-Hui Wen Matthieu Lin Ho-Jui Fang Sheng Ye Tian Lv Yang Liu 131 0 0 15 Mar 2025
Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities Ruchika Chavhan Abhinav Mehrotra Malcolm Chadwick Alberto Gil C. P. Ramos Luca Morreale Mehdi Noroozi Sourav Bhattacharya 91 0 0 14 Mar 2025
LUSD: Localized Update Score Distillation for Text-Guided Image Editing Worameth Chinchuthakun Tossaporn Saengja Nontawat Tritrong Pitchaporn Rewatbowornwong Pramook Khungurn Supasorn Suwajanakorn DiffM 104 0 0 14 Mar 2025
EmoAgent: A Multi-Agent Framework for Diverse Affective Image Manipulation Qi Mao Haobo Hu Yujie He Difei Gao Haokun Chen Libiao Jin DiffM 83 0 0 14 Mar 2025
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models Reza Shirkavand Peiran Yu Shangqian Gao Gowthami Somepalli Tom Goldstein Heng-Chiao Huang 193 2 0 13 Mar 2025
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing Rongyao Fang Chengqi Duan Kun Wang Linjiang Huang Hao Li ... Xingyu Zeng R. Zhao Jifeng Dai Xihui Liu Hongsheng Li MLLM ReLM LRM 165 23 0 13 Mar 2025
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization Hanyang Zhao Haoxian Chen Yucheng Guo Genta Indra Winata Tingting Ou Ziyu Huang D. Yao Wenpin Tang 139 0 0 13 Mar 2025
Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation Qi Lv Hao Li Xiang Deng Rui Shao Yinchuan Li Haifeng Zhang Longxiang Gao Michael Yu Wang Liqiang Nie 118 2 0 13 Mar 2025
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation Chen Chen Rui Qian Wenze Hu Tsu-Jui Fu Jialing Tong ... Lezhi Li Bowen Zhang Alex Schwing Wei Liu Yue Yang 143 0 0 13 Mar 2025
Adding Additional Control to One-Step Diffusion with Joint Distribution Matching Yihong Luo Tianyang Hu Yifan Song Jiacheng Sun Zechao Li Jing Tang DiffM 146 1 0 13 Mar 2025
Distilling Diversity and Control in Diffusion Models Rohit Gandikota David Bau 98 4 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 150 1 0 13 Mar 2025
Learning Few-Step Diffusion Models by Trajectory Distribution Matching Yihong Luo Tianyang Hu Jiacheng Sun Yujun Cai Jing Tang DiffM 160 1 0 13 Mar 2025
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen Shuchen Xue Yuyang Zhao Jincheng Yu Sayak Paul Junyu Chen Han Cai Enze Xie Enze Xie VLM 177 10 0 12 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 90 0 0 12 Mar 2025
UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer Haoxuan Wang Jinlong Peng Qu He Hao Yang Ying Jin ... Yanjie Pan Zhenye Gan M. Chi Bo Peng Yun Wang DiffM 105 2 0 12 Mar 2025
PromptMap: An Alternative Interaction Style for AI-Based Image Generation Krzysztof Adamkiewicz Paweł W. Woźniak Julia Dominiak Andrzej Romanowski Jakob Karolus Stanislav Frolov 137 1 0 12 Mar 2025
Aligning Text to Image in Diffusion Models is Easier Than You Think J. Lee Byunghee Cha Jeongsol Kim Jong Chul Ye 159 1 0 11 Mar 2025
Rethinking Diffusion Model in High Dimension Zhenxin Zheng Zhenjie Zheng DiffM 101 0 0 11 Mar 2025
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion Lehan Yang Jincen Song Tianlong Wang Daiqing Qi Weili Shi Yuheng Liu Sheng Li DiffM VOS VGen 131 0 0 11 Mar 2025
TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation Victor Shea-Jay Huang Le Zhuo Yi Xin Zhaokai Wang Peng Gao Hongsheng Li DiffM 164 1 0 10 Mar 2025
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models Ruidong Chen Honglin Guo Lanjun Wang Chenyu Zhang Weizhi Nie An-an Liu DiffM 109 2 0 10 Mar 2025