Exploring Vision Transformers as Diffusion Learners

Exploring Vision Transformers as Diffusion Learners

28 December 2022

Papers citing "Exploring Vision Transformers as Diffusion Learners"

14 / 14 papers shown

Title
Remix-DiT: Mixing Diffusion Transformers for Multi-Expert Denoising Gongfan Fang Xinyin Ma Xinchao Wang DiffM MoE 104 0 0 07 Dec 2024
U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers Yuchuan Tian Zhijun Tu Hanting Chen Jie Hu Chao Xu Yunhe Wang 33 15 0 04 May 2024
How to Protect Copyright Data in Optimization of Large Language Models? T. Chu Zhao-quan Song Chiwun Yang 34 29 0 23 Aug 2023
Masked Diffusion Models Are Fast Distribution Learners Jiachen Lei Qinglong Wang Pengyu Cheng Zhongjie Ba Zhan Qin Zhibo Wang Zhenguang Liu Kui Ren DiffM 21 2 0 20 Jun 2023
Multi-Architecture Multi-Expert Diffusion Models Yunsung Lee Jin-Young Kim Hyojun Go Myeongho Jeong Shinhyeok Oh Seungtaek Choi DiffM 26 29 0 08 Jun 2023
On the Design Fundamentals of Diffusion Models: A Survey Ziyi Chang G. Koulieris Hubert P. H. Shum DiffM 29 53 0 07 Jun 2023
Guided Motion Diffusion for Controllable Human Motion Synthesis Korrawe Karunratanakul Konpat Preechakul Supasorn Suwajanakorn Siyu Tang DiffM 34 122 0 21 May 2023
Denoising Diffusion Autoencoders are Unified Self-supervised Learners Weilai Xiang Hongyu Yang Di Huang Yunhong Wang DiffM 14 70 0 17 Mar 2023
OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav Karmesh Yadav Arjun Majumdar Ram Ramrakhya Naoki Yokoyama Alexei Baevski Z. Kira Oleksandr Maksymets Dhruv Batra ViT 8 45 0 14 Mar 2023
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang X. Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 140 728 0 28 Jan 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,434 0 11 Nov 2021
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 342 1,588 0 10 Nov 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 277 3,622 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 275 1,081 0 17 Feb 2021