SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

4 July 2023

ArXiv (abs)PDF HTML Github (25942★)

Papers citing "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis"

50 / 607 papers shown

Title
DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models Revant Teotia Candace Ross Karen Ullrich S. Chopra Adriana Romero-Soriano Melissa Hall Matthew Muckley EGVM VLM 160 0 0 05 Jun 2025
ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development Zhenran Xu Xue Yang Yiyu Wang Qingli Hu Zijiao Wu L. Wang Weihua Luo Kaifu Zhang Baotian Hu Min Zhang LLMAG 96 0 0 05 Jun 2025
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing Guangzhao Li Yanming Yang Chenxi Song Chi Zhang DiffM VGen 112 0 0 05 Jun 2025
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training Jianyi Wang Shanchuan Lin Zhijie Lin Yuxi Ren Meng Wei ... Yang Zhao Ceyuan Yang Xuefeng Xiao Chen Change Loy Lu Jiang DiffM VGen 164 1 0 05 Jun 2025
Towards Reliable Identification of Diffusion-based Image Manipulations Alex Costanzino Woody Bayliss Juil Sock Marc Gorriz Blanch Danijela Horak Ivan Laptev Philip Torr Fabio Pizzati DiffM 49 0 0 05 Jun 2025
GP-MoLFormer-Sim: Test Time Molecular Optimization through Contextual Similarity Guidance Jirí Navrátil Jarret Ross Payel Das Youssef Mroueh Samuel C. Hoffman Vijil Chenthamarakshan Brian M. Belgodere 25 0 0 05 Jun 2025
UniRes: Universal Image Restoration for Complex Degradations Mo Zhou Keren Ye M. Delbracio P. Milanfar Vishal M. Patel Hossein Talebi 33 0 0 05 Jun 2025
Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model Zelu Qi Ping Shi C. Zhang Shuqi Wang F. Zhao Da Pan Zefeng Ying EGVM VGen 139 0 0 05 Jun 2025
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models Ziyi Wu Anil Kag Ivan Skorokhodov Willi Menapace Ashkan Mirzaei Igor Gilitschenski Sergey Tulyakov Aliaksandr Siarohin DiffM VGen 65 0 0 04 Jun 2025
HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting Maksym Ivashechkin Oscar Mendez Richard Bowden 3DGS 32 0 0 04 Jun 2025
AuthGuard: Generalizable Deepfake Detection via Language Guidance Guangyu Shen Zhihua Li Xiang Xu Tianchen Zhao Zheng Zhang Dongsheng An Zhuowen Tu Yifan Xing Qin Zhang 23 0 0 04 Jun 2025
PRJ: Perception-Retrieval-Judgement for Generated Images Qiang Fu Zonglei Jing Zonghao Ying Xiaoqian Li EGVM 116 1 0 04 Jun 2025
Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts Jiaxing Zhang Xinyi Zeng Hao Tang 87 0 0 04 Jun 2025
RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors Hicham Eddoubi Jonas Ricker Federico Cocchi Lorenzo Baraldi Angelo Sotgiu ... Marcella Cornia Lorenzo Baraldi Asja Fischer Rita Cucchiara Battista Biggio AAML 149 0 0 04 Jun 2025
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions Bimsara Pathiraja Maitreya Patel Shivam Singh Yezhou Yang Chitta Baral 31 0 0 03 Jun 2025
Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences Yunhong Lu Qichao Wang H. Cao Xiaoyin Xu Min Zhang 49 0 0 03 Jun 2025
Native-Resolution Image Synthesis Zidong Wang Lei Bai Xiangyu Yue Wanli Ouyang Yiyuan Zhang 74 0 0 03 Jun 2025
HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation Yicheng Xiao Lin Song Rui Yang Cheng Cheng Zunnan Xu Zhaoyang Zhang Yixiao Ge Xiu Li Ying Shan 60 2 0 03 Jun 2025
FlexPainter: Flexible and Multi-View Consistent Texture Generation Dongyu Yan Leyi Wu Jiantao Lin Luozhou Wang Tianshuo Xu Zhifei Chen Zhen Yang Lie Xu Shunsi Zhang Yingcong Chen DiffM 68 0 0 03 Jun 2025
Rethinking Machine Unlearning in Image Generation Models Renyang Liu Wenjie Feng Tianwei Zhang Wei Zhou Xueqi Cheng See-Kiong Ng MU VLM 56 0 0 03 Jun 2025
Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks Tao Yang Ruibin Li Yangming Shi Yuqi Zhang Qide Dong Haoran Cheng Weiguo Feng Shilei Wen Bingyue Peng Lei Zhang DiffM VGen 66 0 0 02 Jun 2025
TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation Amin Karimi Monsefi Mridul Khurana R. Ramnath Anuj Karpatne Wei-Lun Chao Cheng Zhang 65 0 0 02 Jun 2025
Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 57 0 0 02 Jun 2025
Minimal Impact ControlNet: Advancing Multi-ControlNet Integration Shikun Sun Min Zhou Zixuan Wang Xubin Li T. Ge Zijie Ye Xiaoyu Qin Junliang Xing Bo Zheng J. Jia 62 0 0 02 Jun 2025
Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences Hyojin Bahng Caroline Chan F. Durand Phillip Isola EGVM 32 0 0 02 Jun 2025
DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion Geunmin Hwang Hyun-kyu Ko Younghyun Kim S. W. Lee Eunbyung Park VGen 50 0 0 02 Jun 2025
WorldExplorer: Towards Generating Fully Navigable 3D Scenes Manuel-Andreas Schneider Lukas Höllein Matthias Nießner VGen 53 0 0 02 Jun 2025
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation Li Zhou Lutong Yu Dongchu Xie Shaohuan Cheng Wenyan Li Haizhou Li VLM 75 0 0 02 Jun 2025
DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation Xianbing Sun Y. Hong Jiahui Zhan Jun Lan Huijia Zhu Weiqiang Wang Liqing Zhang Jianfu Zhang DiffM 45 0 0 01 Jun 2025
Parallel Rescaling: Rebalancing Consistency Guidance for Personalized Diffusion Models Jungwoo Chae J. Kim Sangheum Hwang DiffM 34 0 0 31 May 2025
Reason-SVG: Hybrid Reward RL for Aha-Moments in Vector Graphics Generation Ximing Xing Yandong Guan Jing Zhang Dong Xu Qian Yu LRM 75 0 0 30 May 2025
Category-aware EEG image generation based on wavelet transform and contrast semantic loss Enshang Zhang Zhicheng Zhang Takashi Hanakawa DiffM 24 0 0 30 May 2025
Are Any-to-Any Models More Consistent Across Modality Transfers Than Specialists? Jiwan Chung Janghan Yoon J. S. Park Sangeyl Lee Joowon Yang Sooyeon Park Youngjae Yu 42 0 0 30 May 2025
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering Runnan Lu Yuxuan Zhang Jailing Liu Haifa Wang Yiren Song DiffM 37 0 0 30 May 2025
InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing Jinlu Zhang Yixin Chen Zan Wang Jie Yang Yizhou Wang Siyuan Huang 41 1 0 30 May 2025
STORK: Improving the Fidelity of Mid-NFE Sampling for Diffusion and Flow Matching Models Zheng Tan Weizhen Wang Andrea L. Bertozzi Ernest K. Ryu DiffM 32 0 0 30 May 2025
GenSpace: Benchmarking Spatially-Aware Image Generation Zehan Wang Jiayang Xu Ziang Zhang Tianyu Pan Chao Du Hengshuang Zhao Zhou Zhao EGVM 53 0 0 30 May 2025
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization Cailin Zhuang Ailin Huang Wei Cheng J. Wu Yaoqi Hu ... Hengyuan Xu Xuanyang Zhang Xianfang Zeng Gang Yu Fangqiu Yi CoGe 61 2 0 30 May 2025
un $^2$ CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP Yinqi Li Jiahe Zhao Hong Chang Ruibing Hou Shiguang Shan Xilin Chen CLIP VLM 43 0 0 30 May 2025
KGMark: A Diffusion Watermark for Knowledge Graphs H. Peng Haolang Lu Yuanlong Yu Weiye Fu Kun Wang Guoshun Nan 63 0 0 29 May 2025
Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis H. Cao Yutong Feng Biao Gong Yijing Tian Yunhong Lu Chuang Liu Bin Wang DiffM VGen 40 1 0 29 May 2025
Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering Sixian Wang Zhiwei Tang Tsung-Hui Chang DiffM 24 0 0 29 May 2025
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation Jihai Zhang Tianle Li Linjie Li Zhengyuan Yang Yu Cheng 70 1 0 29 May 2025
GeoMan: Temporally Consistent Human Geometry Estimation using Image-to-Video Diffusion Gwanghyun Kim Xueting Li Ye Yuan Koki Nagano Tianye Li Jan Kautz Se Young Chun Umar Iqbal DiffM 66 0 0 29 May 2025
A Survey of Generative Categories and Techniques in Multimodal Large Language Models Longzhen Han Awes Mubarak Almas Baimagambetov Nikolaos Polatidis Thar Baker LRM 51 0 0 29 May 2025
MAP: Revisiting Weight Decomposition for Low-Rank Adaptation Chongjie Si Zhiyi Shi Yadao Wang Xiaokang Yang Susanto Rahardja Wei Shen 62 0 0 29 May 2025
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers Yusuf Dalva Hidir Yesiltepe Pinar Yanardag OffRL 80 0 0 29 May 2025
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model Yifan Chang Yukang Feng Jianwen Sun Jiaxin Ai Chuanhao Li Sizhuo Zhou Kaipeng Zhang EGVM 77 0 0 28 May 2025
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape Ruichen Chen Keith G. Mills Liyao Jiang Chao Gao Di Niu VGen 93 0 0 28 May 2025
ObjectClear: Complete Object Removal via Object-Effect Attention Jixin Zhao Shangchen Zhou Zhouxia Wang Peiqing Yang Chen Change Loy DiffM 69 0 0 28 May 2025