PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

7 March 2024

Enze Xie

Ping Luo

Huchuan Lu

Zhenguo Li

ArXiv PDF HTML

Papers citing "PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation"

26 / 26 papers shown

Title
DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models Giulia Bertazzini Daniele Baracchi Dasara Shullani Isao Echizen Alessandro Piva 24 0 0 16 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Xuzhi Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 74 0 0 05 May 2025
Improving Editability in Image Generation with Layer-wise Memory Daneul Kim Jaeah Lee Jaesik Park DiffM KELM 60 0 0 02 May 2025
AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images Yunhao Li Sijing Wu Wei Sun Zhichao Zhang Yucheng Zhu Zicheng Zhang Huiyu Duan Xiongkuo Min Guangtao Zhai EGVM 90 0 0 30 Apr 2025
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo Liangbing Zhao Sayak Paul Yue Liao Renrui Zhang Yi Xin Peng Gao Mohamed Elhoseiny Hao Li VLM 75 0 0 22 Apr 2025
Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis Jingjing Ren Wenbo Li Zhongdao Wang Haoze Sun Bangzhen Liu ... Aoxue Li Shifeng Zhang Bin Shao Yong Guo Lei Zhu VGen 43 0 0 20 Apr 2025
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance Jiazi Bu Pengyang Ling Yujie Zhou Pan Zhang Tong Wu Xiaoyi Dong Yuhang Zang Y. Cao Dahua Lin Jiaqi Wang 21 0 0 08 Apr 2025
Training-free Diffusion Acceleration with Bottleneck Sampling Ye Tian Xin Xia Yuxi Ren Shanchuan Lin Xing Wang Xuefeng Xiao Yunhai Tong L. Yang Bin Cui 60 0 0 24 Mar 2025
UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models Fanghua Yu Jinjin Gu Jinfan Hu Zheyuan Li Chao Dong DiffM 55 0 0 21 Mar 2025
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality Zhengyao Lv Chenyang Si Junhao Song Zhenyu Yang Yu Qiao Ziwei Liu Kwan-Yee K. Wong VGen DiffM 84 8 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 68 0 0 13 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 163 0 0 12 Mar 2025
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment Xing Xie Jiawei Liu Ziyue Lin Huijie Fan Zhi Han Yandong Tang Liangqiong Qu 44 0 0 10 Mar 2025
LEDiT: Your Length-Extrapolatable Diffusion Transformer without Positional Encoding Shen Zhang Yaning Tan Siyuan Liang Zhaowei Chen Linze Li ... Shuheng Li Zhenyu Zhao Caihua Chen Jiajun Liang Yao Tang 51 0 0 06 Mar 2025
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation Chenguo Lin Panwang Pan Bangbang Yang Zeming Li Yadong Mu 3DGS 76 7 0 28 Jan 2025
Accelerate High-Quality Diffusion Models with Inner Loop Feedback M. Gwilliam Han Cai Di Wu Abhinav Shrivastava Zhiyu Cheng 90 0 0 22 Jan 2025
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers Enze Xie Junsong Chen Junyu Chen Han Cai Haotian Tang ... Zhekai Zhang Muyang Li Ligeng Zhu Yaojie Lu Song Han VLM 46 49 0 14 Oct 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 73 64 0 09 Oct 2024
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference Jiwoo Hong Sayak Paul Noah Lee Kashif Rasul James Thorne Jongheon Jeong 43 13 0 10 Jun 2024
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation Tianchen Zhao Tongcheng Fang Haofeng Huang Enshu Liu Widyadewi Soedarmadji ... Shengen Yan Huazhong Yang Xuefei Ning Xuefei Ning Yu Wang MQ VGen 112 25 0 04 Jun 2024
FiT: Flexible Vision Transformer for Diffusion Model Zeyu Lu Zidong Wang Di Huang Chengyue Wu Xihui Liu Wanli Ouyang Lei Bai 160 45 0 19 Feb 2024
One-step Diffusion with Distribution Matching Distillation Tianwei Yin Michael Gharbi Richard Zhang Eli Shechtman Frédo Durand William T. Freeman Taesung Park DiffM 124 219 0 30 Nov 2023
Adversarial Diffusion Distillation Axel Sauer Dominik Lorenz A. Blattmann Robin Rombach 138 329 0 28 Nov 2023
Advancing Vision Transformers with Group-Mix Attention Chongjian Ge Xiaohan Ding Zhan Tong Li Yuan Jiangliu Wang Yibing Song Ping Luo 112 16 0 26 Nov 2023
MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer Shanghua Gao Pan Zhou Mingg-Ming Cheng Shuicheng Yan DiffM 145 155 0 25 Mar 2023
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 283 3,623 0 24 Feb 2021