SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

4 July 2023

ArXiv (abs)PDF HTML Github (25942★)

Papers citing "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis"

50 / 608 papers shown

Title
Diffusion Models Are Real-Time Game Engines Dani Valevski Yaniv Leviathan Moab Arar Shlomi Fruchter DiffM VGen AI4CE 139 91 0 27 Aug 2024
Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models Chaohua Shi Xuan Wang Si Shi Xule Wang Mingrui Zhu Nannan Wang X. Gao CoGe 93 2 0 26 Aug 2024
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences Zhikai Li Xuewen Liu Dongrong Fu Jianquan Li Qingyi Gu Kurt Keutzer Zhen Dong EGVM VGen DiffM 186 2 0 26 Aug 2024
Atlas Gaussians Diffusion for 3D Generation Haitao Yang Yuan Dong Hanwen Jiang Dejia Xu Georgios Pavlakos Qixing Huang 3DGS 191 3 0 23 Aug 2024
AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion Yunfang Niu Lingxiang Wu Dong Yi Jie Peng Ning Jiang Haiying Wu Jinqiao Wang DiffM 80 1 0 21 Aug 2024
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting Liyao Jiang Negar Hassanpour Mohammad Salameh Mohan Sai Singamsetti Fengyu Sun Wei Lu Di Niu DiffM 150 2 0 21 Aug 2024
Perception-guided Jailbreak against Text-to-Image Models Yihao Huang Le Liang Tianlin Li Xiaojun Jia Run Wang Weikai Miao G. Pu Yang Liu 124 11 0 20 Aug 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 220 3 0 19 Aug 2024
RepControlNet: ControlNet Reparameterization Zhaoli Deng Kaibin Zhou Fanyi Wang Zhenpeng Mi DiffM 74 3 0 17 Aug 2024
Hybrid SD: Edge-Cloud Collaborative Inference for Stable Diffusion Models Chenqian Yan Songwei Liu Hongjian Liu Xurui Peng Xiaojian Wang Fangming Chen Lean Fu Xing Mei 133 7 0 13 Aug 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 314 565 0 12 Aug 2024
EasyInv: Toward Fast and Better DDIM Inversion Ziyue Zhang Mingbao Lin Shuicheng Yan Rongrong Ji 102 2 0 09 Aug 2024
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation Zhiyu Tan Xiaomeng Yang Luozheng Qin Hao Li VGen 105 22 0 05 Aug 2024
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models Agneet Chatterjee Yiran Luo Tejas Gokhale Yezhou Yang Chitta Baral LRM 101 5 0 05 Aug 2024
Pre-trained Encoder Inference: Revealing Upstream Encoders In Downstream Machine Learning Services Shaopeng Fu Xuexue Sun Ke Qing Tianhang Zheng Di Wang AAML MIACV SILM 125 0 0 05 Aug 2024
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining Dongyang Liu Shitian Zhao Le Zhuo Weifeng Lin Ping Luo Xinyue Li Qi Qin Yu Qiao Hongsheng Li Peng Gao MLLM 168 59 0 05 Aug 2024
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention Mengkang Hu DiffM 115 10 0 01 Aug 2024
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion Manuel Kansy Jacek Naruniec Christopher Schroers Markus Gross Romann M. Weber DiffM VGen 127 4 0 01 Aug 2024
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models Yingkai Dong Xiangtao Meng Ning Yu Zheng Li Shanqing Guo LLMAG 119 17 0 01 Aug 2024
Tora: Trajectory-oriented Diffusion Transformer for Video Generation Zhenghao Zhang Junchao Liao Menghao Li Zuozhuo Dai Bingxue Qiu Hao Hu Shaowei Cai Weizhi Wang VGen 179 57 0 31 Jul 2024
Temporal Feature Matters: A Framework for Diffusion Model Quantization Yushi Huang Ruihao Gong Xianglong Liu Jing Liu Yuhang Li Jiwen Lu Dacheng Tao DiffM MQ 119 0 0 28 Jul 2024
$$\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions$ $\infty$ -Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions Minh-Quan Le Alexandros Graikos Srikar Yellapragada Rajarsi R. Gupta Joel H. Saltz Dimitris Samaras 96 10 0 20 Jul 2024
DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion Huiguo He Huan Yang Zixi Tuo Yuan Zhou Qiuyue Wang Yuhang Zhang Zeyu Liu Wenhao Huang Hongyang Chao Jian Yin DiffM VGen 200 17 0 17 Jul 2024
InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture Phillip Mueller Jannik Wiese Ioan Crăciun Lars Mikelsons 83 4 0 15 Jul 2024
Exploring the Potentials and Challenges of Deep Generative Models in Product Design Conception Phillip Mueller Lars Mikelsons AI4CE 120 3 0 15 Jul 2024
SEED-Story: Multimodal Long Story Generation with Large Language Model Shuai Yang Yuying Ge Yang Li Yukang Chen Yixiao Ge Ying Shan Yingcong Chen VGen DiffM 142 32 0 11 Jul 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 132 40 0 08 Jul 2024
Modality-Specialized Synergizers for Interleaved Vision-Language Generalists Zhiyang Xu Minqian Liu Ying Shen Joy Rimchala Jiaxin Zhang Qifan Wang Yu Cheng Lifu Huang VLM 90 6 0 04 Jul 2024
GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models Jian Ma Yonglin Deng Chen Chen H. Lu Zhenyu Yang Zhenyu Yang VLM DiffM 195 10 0 02 Jul 2024
No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models Seyedmorteza Sadat Manuel Kansy Otmar Hilliges Romann M. Weber 96 14 0 02 Jul 2024
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation Haofan Wang Peng-Fei Xing Renyuan Huang Hao Ai Qixun Wang Xu Bai DiffM 107 25 0 30 Jun 2024
$GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing$ GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing Yisong Xiao Aishan Liu QianJia Cheng Zhenfei Yin Siyuan Liang Jiapeng Li Jing Shao Xianglong Liu Dacheng Tao 124 8 0 30 Jun 2024
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models Yichen Sun Zhixuan Chu Zhan Qin Kui Ren DiffM 86 1 0 24 Jun 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 185 39 0 24 Jun 2024
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models Matthew Zheng Enis Simsar Hidir Yesiltepe Federico Tombari Joel Simon Pinar Yanardag 138 4 0 20 Jun 2024
Evaluating Numerical Reasoning in Text-to-Image Models Ivana Kajić Olivia Wiles Isabela Albuquerque Matthias Bauer Su Wang Jordi Pont-Tuset Aida Nematzadeh EGVM ReLM 207 2 0 20 Jun 2024
Fantastic Copyrighted Beasts and How (Not) to Generate Them Luxi He Yangsibo Huang Weijia Shi Tinghao Xie Haotian Liu Yue Wang Luke Zettlemoyer Chiyuan Zhang Danqi Chen Peter Henderson 118 12 0 20 Jun 2024
Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation Eyal Michaeli Ohad Fried 114 1 0 20 Jun 2024
Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI Robert Honig Javier Rando Nicholas Carlini Florian Tramèr WIGM AAML 137 21 0 17 Jun 2024
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models Alireza Ganjdanesh Reza Shirkavand Shangqian Gao Heng Huang DiffM VLM 149 5 0 17 Jun 2024
Mixture-of-Subspaces in Low-Rank Adaptation Taiqiang Wu Jiahao Wang Zhe Zhao Ngai Wong 146 27 0 16 Jun 2024
CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation Wei Chen Lin Li Yongqi Yang Bin Wen Fan Yang Tingting Gao Yu Wu Long Chen VLM VGen 127 11 0 15 Jun 2024
LRM-Zero: Training Large Reconstruction Models with Synthesized Data Desai Xie Sai Bi Zhixin Shu Kai Zhang Zexiang Xu Yi Zhou Soren Pirk Arie E. Kaufman Xin Sun Hao Tan SyDa 107 17 0 13 Jun 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 172 104 0 11 Jun 2024
Zero-shot Image Editing with Reference Imitation Xi Chen Yutong Feng Mengting Chen Yiyang Wang Shilong Zhang Yu Liu Yujun Shen Hengshuang Zhao DiffM 88 27 0 11 Jun 2024
Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models Athanasios Tragakis Marco Aversa Chaitanya Kaul Roderick Murray-Smith Daniele Faccio 101 2 0 11 Jun 2024
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance X. Wang Siming Fu Qihan Huang Wanggui He Hao Jiang DiffM 133 53 0 11 Jun 2024
PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction Shangyu Chen Zizheng Pan Jianfei Cai Dinh Q. Phung 91 1 0 09 Jun 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 160 37 0 07 Jun 2024
PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction Eduard Poesina Adriana Valentina Costache Adrian-Gabriel Chifu Josiane Mothe Radu Tudor Ionescu VLM 145 1 0 07 Jun 2024