All are Worth Words: A ViT Backbone for Diffusion Models

25 September 2022

Hang Su

Jun Zhu

VLM

ArXiv PDF HTML

Papers citing "All are Worth Words: A ViT Backbone for Diffusion Models"

50 / 115 papers shown

Title
Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models Fan Bao Chongxuan Li Jiacheng Sun Jun Zhu Bo Zhang DiffM 67 76 0 15 Jun 2022
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps Cheng Lu Yuhao Zhou Fan Bao Jianfei Chen Chongxuan Li Jun Zhu DiffM 180 1,419 0 02 Jun 2022
Elucidating the Design Space of Diffusion-Based Generative Models Tero Karras M. Aittala Timo Aila S. Laine DiffM 167 1,967 0 01 Jun 2022
Improved Vector Quantized Diffusion Models Zhicong Tang Shuyang Gu Jianmin Bao Dong Chen Fang Wen DiffM 208 63 0 31 May 2022
Diffusion-LM Improves Controllable Text Generation Xiang Lisa Li John Thickstun Ishaan Gulrajani Percy Liang Tatsunori B. Hashimoto AI4CE 220 823 0 27 May 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 382 6,006 0 23 May 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 360 6,854 0 13 Apr 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 174 1,608 0 07 Apr 2022
KNN-Diffusion: Image Generation via Large-Scale Retrieval Shelly Sheynin Oron Ashual Adam Polyak Uriel Singer Oran Gafni Eliya Nachmani Yaniv Taigman VLM SyDa DiffM 51 120 0 06 Apr 2022
Generating High Fidelity Data from Low-density Regions using Diffusion Models Vikash Sehwag C. Hazirbas Albert Gordo Firat Ozgenel Cristian Canton Ferrer DiffM 76 71 0 31 Mar 2022
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Oran Gafni Adam Polyak Oron Ashual Shelly Sheynin Devi Parikh Yaniv Taigman DiffM 57 520 0 24 Mar 2022
StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets Axel Sauer Katja Schwarz Andreas Geiger 247 509 0 01 Feb 2022
Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models Fan Bao Chongxuan Li Jun Zhu Bo Zhang DiffM 87 344 0 17 Jan 2022
StyleSwin: Transformer-based GAN for High-resolution Image Generation Bo Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang B. Guo ViT 59 229 0 20 Dec 2021
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 388 15,454 0 20 Dec 2021
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 313 3,594 0 20 Dec 2021
Tackling the Generative Learning Trilemma with Denoising Diffusion GANs Zhisheng Xiao Karsten Kreis Arash Vahdat DiffM 87 551 0 15 Dec 2021
Score-Based Generative Modeling with Critically-Damped Langevin Diffusion Tim Dockhorn Arash Vahdat Karsten Kreis DiffM 78 233 0 14 Dec 2021
Vector Quantized Diffusion Model for Text-to-Image Synthesis Shuyang Gu Dong Chen Jianmin Bao Fang Wen Bo Zhang Dongdong Chen Lu Yuan B. Guo DiffM 125 791 0 29 Nov 2021
LAFITE: Towards Language-Free Training for Text-to-Image Generation Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun VLM 72 168 0 27 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 439 7,731 0 11 Nov 2021
Zero-Shot Translation using Diffusion Models Eliya Nachmani Shaked Dovrat DiffM VLM 49 9 0 02 Nov 2021
Do Vision Transformers See Like Convolutional Neural Networks? M. Raghu Thomas Unterthiner Simon Kornblith Chiyuan Zhang Alexey Dosovitskiy ViT 115 953 0 19 Aug 2021
ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models Jooyoung Choi Sungwon Kim Yonghyun Jeong Youngjune Gwon Sungroh Yoon DiffM 118 717 0 06 Aug 2021
ViTGAN: Training GANs with Vision Transformers Kwonjoon Lee Huiwen Chang Lu Jiang Han Zhang Zhuowen Tu Ce Liu ViT 49 185 0 09 Jul 2021
Structured Denoising Diffusion Models in Discrete State-Spaces Jacob Austin Daniel D. Johnson Jonathan Ho Daniel Tarlow Rianne van den Berg DiffM 134 935 0 07 Jul 2021
Variational Diffusion Models Diederik P. Kingma Tim Salimans Ben Poole Jonathan Ho DiffM 164 1,117 0 01 Jul 2021
Early Convolutions Help Transformers See Better Tete Xiao Mannat Singh Eric Mintun Trevor Darrell Piotr Dollár Ross B. Girshick 47 766 0 28 Jun 2021
Score-based Generative Modeling in Latent Space Arash Vahdat Karsten Kreis Jan Kautz DiffM 47 680 0 10 Jun 2021
Soft Truncation: A Universal Training Technique of Score-based Diffusion Model for High Precision Score Estimation Dongjun Kim Seung-Jae Shin Kyungwoo Song Wanmo Kang Il-Chul Moon 59 96 0 10 Jun 2021
Cascaded Diffusion Models for High Fidelity Image Generation Jonathan Ho Chitwan Saharia William Chan David J. Fleet Mohammad Norouzi Tim Salimans 145 1,218 0 30 May 2021
CogView: Mastering Text-to-Image Generation via Transformers Ming Ding Zhuoyi Yang Wenyi Hong Wendi Zheng Chang Zhou ... Junyang Lin Xu Zou Zhou Shao Hongxia Yang Jie Tang ViT VLM 99 779 0 26 May 2021
Segmenter: Transformer for Semantic Segmentation Robin Strudel Ricardo Garcia Pinel Ivan Laptev Cordelia Schmid ViT 196 1,464 0 12 May 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 193 7,818 0 11 May 2021
An Empirical Study of Training Self-Supervised Vision Transformers Xinlei Chen Saining Xie Kaiming He ViT 150 1,862 0 05 Apr 2021
Generating Images with Sparse Representations C. Nash Jacob Menick Sander Dieleman Peter W. Battaglia 76 209 0 05 Mar 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 389 4,937 0 24 Feb 2021
Improved Denoising Diffusion Probabilistic Models Alex Nichol Prafulla Dhariwal DiffM 314 3,671 0 18 Feb 2021
Argmax Flows and Multinomial Diffusion: Learning Categorical Distributions Emiel Hoogeboom Didrik Nielsen P. Jaini Patrick Forré Max Welling DiffM 281 420 0 10 Feb 2021
Maximum Likelihood Training of Score-Based Diffusion Models Yang Song Conor Durkan Iain Murray Stefano Ermon DiffM 133 663 0 22 Jan 2021
Cross-Modal Contrastive Learning for Text-to-Image Generation Han Zhang Jing Yu Koh Jason Baldridge Honglak Lee Yinfei Yang GAN 125 363 0 12 Jan 2021
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers Sixiao Zheng Jiachen Lu Hengshuang Zhao Xiatian Zhu Zekun Luo ... Yanwei Fu Jianfeng Feng Tao Xiang Philip Torr Li Zhang ViT 192 2,897 0 31 Dec 2020
Taming Transformers for High-Resolution Image Synthesis Patrick Esser Robin Rombach Bjorn Ommer ViT 117 2,947 0 17 Dec 2020
Score-Based Generative Modeling through Stochastic Differential Equations Yang Song Jascha Narain Sohl-Dickstein Diederik P. Kingma Abhishek Kumar Stefano Ermon Ben Poole DiffM SyDa 321 6,444 0 26 Nov 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 593 40,961 0 22 Oct 2020
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 231 7,350 0 06 Oct 2020
DiffWave: A Versatile Diffusion Model for Audio Synthesis Zhifeng Kong Ming-Yu Liu Jiaji Huang Kexin Zhao Bryan Catanzaro DiffM BDL 132 1,455 0 21 Sep 2020
WaveGrad: Estimating Gradients for Waveform Generation Nanxin Chen Yu Zhang Heiga Zen Ron J. Weiss Mohammad Norouzi William Chan DiffM BDL 64 791 0 02 Sep 2020
DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis Ming Tao Hao Tang Leilei Gan Xiaoyuan Jing Bingkun Bao Changsheng Xu 91 213 0 13 Aug 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 556 18,008 0 19 Jun 2020