Title
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers Xingjian Leng Jaskirat Singh Yunzhong Hou Zhenchang Xing Saining Xie Liang Zheng 83 6 0 14 Apr 2025
U-REPA: Aligning Diffusion U-Nets to ViTs Yuchuan Tian Hanting Chen Mengyu Zheng Yuchen Liang Chao Xu Yunhe Wang 103 2 0 24 Mar 2025
Attention Distillation: A Unified Approach to Visual Characteristics Transfer Yang Zhou Xu Gao Zichong Chen Hui Huang DiffM 102 7 0 27 Feb 2025
LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation Jiahao Wang Ning Kang Lewei Yao M. Chen Chengyue Wu ... Kai Zhang Shifeng Zhang Wenqi Shao Zechao Li Ping Luo 84 2 0 22 Jan 2025
DiT4Edit: Diffusion Transformer for Image Editing Kunyu Feng Yi Ma Bingyuan Wang Chenyang Qi Haozhe Chen Qifeng Chen Zeyu Wang 84 24 0 05 Nov 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 157 102 0 09 Oct 2024
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention Lianghui Zhu Zilong Huang Bencheng Liao Jun Hao Liew Hanshu Yan Jiashi Feng Xinggang Wang 118 17 0 28 May 2024
A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training Kai Wang Yukun Zhou Mingjia Shi Zhihang Yuan Yuzhang Shang Yuzhang Shang Hanwang Zhang Hanwang Zhang Yang You 130 14 0 27 May 2024
SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers Nanye Ma Mark Goldstein M. S. Albergo Nicholas M. Boffi Eric Vanden-Eijnden Saining Xie DiffM 126 214 0 16 Jan 2024
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications Duc Hoang Minsik Cho Thomas Merth Mohammad Rastegari Zhangyang Wang KELM CLL 55 5 0 02 Oct 2023
Fast Training of Diffusion Models with Masked Transformers Hongkai Zheng Weili Nie Arash Vahdat Anima Anandkumar DiffM 97 73 0 15 Jun 2023
Efficient Diffusion Training via Min-SNR Weighting Strategy Tiankai Hang Shuyang Gu Chen Li Jianmin Bao Dong Chen Han Hu Xin Geng B. Guo 74 163 0 16 Mar 2023
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 120 2,436 0 19 Dec 2022
All are Worth Words: A ViT Backbone for Diffusion Models Fan Bao Shen Nie Kaiwen Xue Yue Cao Chongxuan Li Hang Su Jun Zhu VLM 153 365 0 25 Sep 2022
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 196 3,971 0 26 Jul 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 214 1,642 0 07 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 502 15,788 0 20 Dec 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 477 7,827 0 11 Nov 2021
Soft Truncation: A Universal Training Technique of Score-based Diffusion Model for High Precision Score Estimation Dongjun Kim Seung-Jae Shin Kyungwoo Song Wanmo Kang Il-Chul Moon 71 97 0 10 Jun 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 271 7,958 0 11 May 2021
Generating Images with Sparse Representations C. Nash Jacob Menick Sander Dieleman Peter W. Battaglia 85 211 0 05 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.0K 29,926 0 26 Feb 2021
Score-Based Generative Modeling through Stochastic Differential Equations Yang Song Jascha Narain Sohl-Dickstein Diederik P. Kingma Abhishek Kumar Stefano Ermon Ben Poole DiffM SyDa 370 6,586 0 26 Nov 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 682 41,483 0 22 Oct 2020
Rethinking Attention with Performers K. Choromanski Valerii Likhosherstov David Dohan Xingyou Song Andreea Gane ... Afroz Mohiuddin Lukasz Kaiser David Belanger Lucy J. Colwell Adrian Weller 186 1,604 0 30 Sep 2020
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention Angelos Katharopoulos Apoorv Vyas Nikolaos Pappas Franccois Fleuret 206 1,793 0 29 Jun 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 742 18,364 0 19 Jun 2020
Linformer: Self-Attention with Linear Complexity Sinong Wang Belinda Z. Li Madian Khabsa Han Fang Hao Ma 219 1,716 0 08 Jun 2020
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 216 12,136 0 13 Nov 2019
Improved Precision and Recall Metric for Assessing Generative Models Tuomas Kynkaanniemi Tero Karras S. Laine J. Lehtinen Timo Aila EGVM 105 865 0 15 Apr 2019
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 805 132,725 0 12 Jun 2017
Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning Stefan Elfwing E. Uchibe Kenji Doya 141 1,746 0 10 Feb 2017
Improved Techniques for Training GANs Tim Salimans Ian Goodfellow Wojciech Zaremba Vicki Cheung Alec Radford Xi Chen GAN 486 9,073 0 10 Jun 2016
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 1.9K 77,441 0 18 May 2015
Deep Unsupervised Learning using Nonequilibrium Thermodynamics Jascha Narain Sohl-Dickstein Eric A. Weiss Niru Maheswaranathan Surya Ganguli SyDa DiffM 312 7,031 0 12 Mar 2015
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 434 43,875 0 01 May 2014