ViTGAN: Training GANs with Vision Transformers

9 July 2021

Papers citing "ViTGAN: Training GANs with Vision Transformers"

34 / 34 papers shown

Title
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos Zhiyu Tan Junyan Wang Hao Yang Luozheng Qin Hesen Chen Qiang-feng Zhou Hao Li VGen 69 0 0 28 Feb 2025
Infrared Image Super-Resolution: Systematic Review, and Future Trends Y. Huang Tomo Miyazaki Xiao-Fang Liu S. Omachi SupR 91 10 0 21 Feb 2025
AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors Ruoxuan Feng Jiangyu Hu Wenke Xia Tianci Gao Ao Shen Yuhao Sun Bin Fang Di Hu 44 5 0 15 Feb 2025
Texture Image Synthesis Using Spatial GAN Based on Vision Transformers Elahe Salari Zohreh Azimifar ViT 52 0 0 03 Feb 2025
On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models Tariq Berrada Ifriqi Pietro Astolfi Melissa Hall Reyhane Askari Hemmat Yohann Benchetrit ... Matthew Muckley Karteek Alahari Adriana Romero Soriano Jakob Verbeek M. Drozdzal AI4CE VLM 54 2 0 05 Nov 2024
Activating Self-Attention for Multi-Scene Absolute Pose Regression Miso Lee Jihwan Kim Jae-Pil Heo ViT 31 0 0 03 Nov 2024
WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild Rolandos Alexandros Potamias Jinglei Zhang Jiankang Deng S. Zafeiriou 3DH 36 10 0 18 Sep 2024
Photorealistic Video Generation with Diffusion Models Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Fei-Fei Li Irfan Essa Lu Jiang José Lezama VGen 47 174 0 11 Dec 2023
DiffiT: Diffusion Vision Transformers for Image Generation Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat 24 66 0 04 Dec 2023
Kunyu: A High-Performing Global Weather Model Beyond Regression Losses Zekun Ni 26 3 0 04 Dec 2023
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models Fei Kong Jinhao Duan Lichao Sun Hao-Ran Cheng Renjing Xu Hengtao Shen Xiao-lan Zhu Xiaoshuang Shi Kaidi Xu 36 3 0 23 Nov 2023
EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation Nikolai Korber Eduard Kromer Andreas Siebert S. Hauke Daniel Mueller-Gritschneder Björn Schuller DiffM VLM 18 4 0 06 Sep 2023
Enhancing COVID-19 Diagnosis through Vision Transformer-Based Analysis of Chest X-ray Images Sultan Zavrak 24 0 0 12 Jun 2023
Reflected Diffusion Models Aaron Lou Stefano Ermon 24 50 0 10 Apr 2023
Human MotionFormer: Transferring Human Motions with Vision Transformers Hongyu Liu Xintong Han Chengbin Jin Lihui Qian Huawei Wei ... Faqiang Wang Haoye Dong Yibing Song Jia Xu Qifeng Chen 11 10 0 22 Feb 2023
Transformer-based Generative Adversarial Networks in Computer Vision: A Comprehensive Survey S. Dubey Satish Kumar Singh ViT 35 33 0 17 Feb 2023
Mind the (optimality) Gap: A Gap-Aware Learning Rate Scheduler for Adversarial Nets Hussein Hazimeh Natalia Ponomareva GAN 17 2 0 31 Jan 2023
Long Range Pooling for 3D Large-Scale Scene Understanding Xiang-Li Li Meng-Hao Guo Tai-Jiang Mu Ralph Robert Martin Shiyong Hu 3DV 3DPC 19 2 0 17 Jan 2023
Edge Enhanced Image Style Transfer via Transformers Chi Zhang Jun Yang Zaiyan Dai Peng-Xia Cao 11 10 0 02 Jan 2023
Exploring Vision Transformers as Diffusion Learners He Cao Jianan Wang Tianhe Ren Xianbiao Qi Yihao Chen Yuan Yao L. Zhang 36 10 0 28 Dec 2022
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer Ning Yu Chia-Chih Chen Zeyuan Chen Rui Meng Ganglu Wu P. Josel Juan Carlos Niebles Caiming Xiong Ran Xu ViT DiffM 24 6 0 19 Dec 2022
Rethinking Vision Transformers for MobileNet Size and Speed Yanyu Li Ju Hu Yang Wen Georgios Evangelidis Kamyar Salahi Yanzhi Wang Sergey Tulyakov Jian Ren ViT 30 159 0 15 Dec 2022
NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers Yijiang Liu Huanrui Yang Zhen Dong Kurt Keutzer Li Du Shanghang Zhang MQ 29 45 0 29 Nov 2022
M $^3$ ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design Hanxue Liang Zhiwen Fan Rishov Sarkar Ziyu Jiang Tianlong Chen Kai Zou Yu Cheng Cong Hao Zhangyang Wang MoE 31 81 0 26 Oct 2022
Delving Globally into Texture and Structure for Image Inpainting Haipeng Liu Yang Wang Meng Wang Yong Rui DiffM 25 25 0 17 Sep 2022
EfficientFormer: Vision Transformers at MobileNet Speed Yanyu Li Geng Yuan Yang Wen Eric Hu Georgios Evangelidis Sergey Tulyakov Yanzhi Wang Jian Ren ViT 18 347 0 02 Jun 2022
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer Songwei Ge Thomas Hayes Harry Yang Xiaoyue Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh ViT 51 214 0 07 Apr 2022
DepthGAN: GAN-based Depth Generation of Indoor Scenes from Semantic Layouts Yidi Li Yiqun Wang Zhengda Lu Jun Xiao GAN 3DV MDE 24 3 0 22 Mar 2022
CMT: Convolutional Neural Networks Meet Vision Transformers Jianyuan Guo Kai Han Han Wu Yehui Tang Chunjing Xu Yunhe Wang Chang Xu ViT 349 500 0 13 Jul 2021
Improved Transformer for High-Resolution GANs Long Zhao Zizhao Zhang Ting Chen Dimitris N. Metaxas Han Zhang ViT 26 95 0 14 Jun 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 271 2,603 0 04 May 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,777 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,981 0 09 Feb 2021
A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras S. Laine Timo Aila 279 10,348 0 12 Dec 2018