Latte: Latent Diffusion Transformer for Video Generation

5 January 2024

Papers citing "Latte: Latent Diffusion Transformer for Video Generation"

21 / 271 papers shown

Title
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 561 40,961 0 22 Oct 2020
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 216 7,350 0 06 Oct 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 537 18,008 0 19 Jun 2020
Latent Video Transformer Ruslan Rakhimov Denis Volkhonskiy Alexey Artemov Denis Zorin Evgeny Burnaev VGen 88 120 0 18 Jun 2020
First Order Motion Model for Image Animation Aliaksandr Siarohin Stéphane Lathuilière Sergey Tulyakov Elisa Ricci N. Sebe VGen DiffM 77 925 0 29 Feb 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 552 4,797 0 23 Jan 2020
Lower Dimensional Kernels for Video Discriminators Emmanuel Kahembwe S. Ramamoorthy 46 51 0 18 Dec 2019
Scaling Autoregressive Video Models Dirk Weissenborn Oscar Täckström Jakob Uszkoreit DiffM VGen 85 201 0 06 Jun 2019
Towards Accurate Generative Models of Video: A New Metric & Challenges Thomas Unterthiner Sjoerd van Steenkiste Karol Kurach Raphaël Marinier Marcin Michalski Sylvain Gelly EGVM VGen 88 727 0 03 Dec 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.7K 94,729 0 11 Oct 2018
FaceForensics: A Large-scale Video Dataset for Forgery Detection in Human Faces Andreas Rossler D. Cozzolino L. Verdoliva Christian Riess Justus Thies Matthias Nießner PICV AAML CVBM 89 380 0 24 Mar 2018
Image Transformer Niki Parmar Ashish Vaswani Jakob Uszkoreit Lukasz Kaiser Noam M. Shazeer Alexander Ku Dustin Tran ViT 128 1,679 0 15 Feb 2018
FiLM: Visual Reasoning with a General Conditioning Layer Ethan Perez Florian Strub H. D. Vries Vincent Dumoulin Aaron Courville FAtt AIMat OffRL AI4CE 340 2,208 0 22 Sep 2017
Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks Wei Xiong Wenhan Luo Lin Ma Wen Liu Jiebo Luo GAN 51 181 0 22 Sep 2017
MoCoGAN: Decomposing Motion and Content for Video Generation Sergey Tulyakov Ming-Yuan Liu Xiaodong Yang Jan Kautz GAN 129 1,147 0 17 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 662 131,414 0 12 Jun 2017
Temporal Generative Adversarial Nets with Singular Value Clipping Masaki Saito Eiichi Matsumoto Shunta Saito GAN 67 449 0 21 Nov 2016
Generating Videos with Scene Dynamics Carl Vondrick Hamed Pirsiavash Antonio Torralba GAN VGen 180 1,468 0 08 Sep 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 193,814 0 10 Dec 2015
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 1.8K 77,099 0 18 May 2015
Two-Stream Convolutional Networks for Action Recognition in Videos Karen Simonyan Andrew Zisserman 240 7,535 0 09 Jun 2014