Generating Diverse High-Fidelity Images with VQ-VAE-2

2 June 2019

Ali Razavi

Papers citing "Generating Diverse High-Fidelity Images with VQ-VAE-2"

50 / 1,128 papers shown

Title
Diffusion Models for Medical Image Analysis: A Comprehensive Survey Amirhossein Kazerouni Ehsan Khodapanah Aghdam Moein Heidari Reza Azad Mohsen Fayyaz Ilker Hacihaliloglu Dorit Merhof DiffM MedIm 139 399 0 14 Nov 2022
Large-Scale Bidirectional Training for Zero-Shot Image Captioning Taehoon Kim Mark A Marsden Pyunghwan Ahn Sangyun Kim Sihaeng Lee Alessandra Sala S. Kim VLM 88 4 0 13 Nov 2022
Deep Reinforcement Learning with Vector Quantized Encoding Liang Zhang Justin Lieffers A. Pyarelal OffRL 63 2 0 12 Nov 2022
Design of Unmanned Air Vehicles Using Transformer Surrogate Models Adam D. Cobb Anirban Roy Daniel Elenius Susmit Jha AI4CE 63 1 0 11 Nov 2022
Medical Diffusion: Denoising Diffusion Probabilistic Models for 3D Medical Image Generation Firas Khader Gustav Mueller-Franzes Soroosh Tayebi Arasteh T. Han Christoph Haarburger ... Johannes Stegmaier Christiane Kuhl S. Nebelung Jakob Nikolas Kather Daniel Truhn DiffM MedIm 190 68 0 07 Nov 2022
I Hear Your True Colors: Image Guided Audio Generation Roy Sheffer Yossi Adi VLM 111 76 0 06 Nov 2022
Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models Zhekai Zhang Ji Lin Chenlin Meng Stefano Ermon Song Han Jun-Yan Zhu DiffM 164 49 0 03 Nov 2022
CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language Aditya Sanghi Rao Fu Vivian Liu Karl Willis Hooman Shayani Amir Hosein Khasahmadi Srinath Sridhar Daniel E. Ritchie 101 55 0 02 Nov 2022
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning Riashat Islam Hongyu Zang Anirudh Goyal Alex Lamb Kenji Kawaguchi Xin-hui Li Romain Laroche Yoshua Bengio Rémi Tachet des Combes OffRL AI4CE 110 11 0 01 Nov 2022
INR-V: A Continuous Representation Space for Video-based Generative Tasks Bipasha Sen Aditya Agarwal Vinay P. Namboodiri C. V. Jawahar VGen 126 7 0 29 Oct 2022
Multiresolution Signal Processing of Financial Market Objects Ioana Boier 35 2 0 28 Oct 2022
Towards High-Quality Neural TTS for Low-Resource Languages by Learning Compact Speech Representations Haohan Guo Fenglong Xie Xixin Wu Hui Lu Helen Meng 346 3 0 27 Oct 2022
Full-band General Audio Synthesis with Score-based Diffusion Santiago Pascual Gautam Bhattacharya Chunghsin Yeh Jordi Pons Joan Serrà DiffM 69 35 0 26 Oct 2022
Discovering Design Concepts for CAD Sketches Yuezhi Yang Hao Pan 78 12 0 26 Oct 2022
High Fidelity Neural Audio Compression Alexandre Défossez Jade Copet Gabriel Synnaeve Yossi Adi 142 675 0 24 Oct 2022
High-Resolution Image Editing via Multi-Stage Blended Diffusion J. Ackermann Minjun Li DiffM 75 16 0 24 Oct 2022
Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D Representations Fukun Yin Wen Liu Zilong Huang Pei Cheng Tao Chen Gang Yu 70 19 0 20 Oct 2022
OCR-VQGAN: Taming Text-within-Image Generation Juan A. Rodriguez David Vazquez I. Laradji M. Pedersoli Pau Rodríguez López 160 20 0 19 Oct 2022
PoseGPT: Quantization-based 3D Human Motion Generation and Forecasting Thomas Lucas Fabien Baradel Philippe Weinzaepfel Grégory Rogez 111 75 0 19 Oct 2022
CLUTR: Curriculum Learning via Unsupervised Task Representation Learning Abdus Salam Azad Izzeddin Gur Jasper Emhoff Nathaniel Alexis Aleksandra Faust Pieter Abbeel Ion Stoica SSL 97 13 0 19 Oct 2022
Optimizing Hierarchical Image VAEs for Sample Quality Eric Luhman Troy Luhman DRL 91 5 0 18 Oct 2022
Hierarchical Diffusion Models for Singing Voice Neural Vocoder Naoya Takahashi Mayank Kumar Singh Yuki Mitsufuji DiffM 85 16 0 14 Oct 2022
JukeDrummer: Conditional Beat-aware Audio-domain Drum Accompaniment Generation via Transformer VQ-VAE Yueh-Kao Wu Ching-Yu Chiu Yi-Hsuan Yang ViT 79 15 0 12 Oct 2022
SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models Ziyi Wu Nikita Dvornik Klaus Greff Thomas Kipf Animesh Garg OCL BDL 145 95 0 12 Oct 2022
Style-Guided Inference of Transformer for High-resolution Image Synthesis Jonghwa Yim Minjae Kim ViT 106 0 0 11 Oct 2022
f-DM: A Multi-stage Diffusion Model via Progressive Signal Transformation Jiatao Gu Shuangfei Zhai Yizhe Zhang Miguel Angel Bautista J. Susskind DiffM 108 27 0 10 Oct 2022
Dynamic Latent Separation for Deep Learning Yi-Lin Tuan Zih-Yun Chiu William Yang Wang 98 0 0 07 Oct 2022
PCAE: A Framework of Plug-in Conditional Auto-Encoder for Controllable Text Generation Haoqin Tu Zhongliang Yang Jinshuai Yang Siyu Zhang Yong Huang 54 7 0 07 Oct 2022
Efficient Diffusion Models for Vision: A Survey Anwaar Ulhaq Naveed Akhtar MedIm 160 68 0 07 Oct 2022
Content-Based Search for Deep Generative Models Daohan Lu Sheng-Yu Wang Nupur Kumari Rohan Agarwal Mia Tang David Bau Jun-Yan Zhu DiffM SyDa 105 6 0 06 Oct 2022
Progressive Text-to-Image Generation Zhengcong Fei Mingyuan Fan Li Zhu Junshi Huang 192 4 0 05 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 121 19 0 05 Oct 2022
CostNet: An End-to-End Framework for Goal-Directed Reinforcement Learning Per-Arne Andersen M. G. Olsen Ole-Christoffer Granmo 3DV OffRL 33 0 0 03 Oct 2022
Visual Prompt Tuning for Generative Transfer Learning Kihyuk Sohn Yuan Hao José Lezama Luisa F. Polanía Huiwen Chang Han Zhang Irfan Essa Lu Jiang VPVLM VLM 169 89 0 03 Oct 2022
Training β-VAE by Aggregating a Learned Gaussian Posterior with a Decoupled Decoder Jianning Li Jana Fragemann Seyed-Ahmad Ahmadi Jens Kleesiek Jan Egger DRL 73 5 0 29 Sep 2022
Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion Nisha Huang Fan Tang Weiming Dong Changsheng Xu DiffM 199 43 0 27 Sep 2022
A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS Haohan Guo Fenglong Xie Frank Soong Xixin Wu Helen M. Meng 90 12 0 22 Sep 2022
Robust Information Bottleneck for Task-Oriented Communication with Digital Modulation Songjie Xie Shuaijie Ma Ming Ding Yuanming Shi Ming-Fu Tang Youlong Wu 127 74 0 21 Sep 2022
Text2Light: Zero-Shot Text-Driven HDR Panorama Generation Zhaoxi Chen Guangcong Wang Ziwei Liu 178 30 0 20 Sep 2022
MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation Chuanxia Zheng L. Vuong Jianfei Cai Dinh Q. Phung MQ 149 80 0 19 Sep 2022
A Geometric Perspective on Variational Autoencoders Clément Chadebec S. Allassonnière DRL 97 24 0 15 Sep 2022
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator Younggyo Seo Kimin Lee Fangchen Liu Stephen James Pieter Abbeel VGen 70 29 0 15 Sep 2022
Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis Byeongjun Park Hyojun Go Changick Kim 3DV 104 6 0 15 Sep 2022
Improved Masked Image Generation with Token-Critic José Lezama Huiwen Chang Lu Jiang Irfan Essa DiffM 260 48 0 09 Sep 2022
Text-Free Learning of a Natural Language Interface for Pretrained Face Generators Xiaodan Du Raymond A. Yeh Nicholas I. Kolkin Eli Shechtman Gregory Shakhnarovich CLIP 68 1 0 08 Sep 2022
Morphology-preserving Autoregressive 3D Generative Modelling of the Brain Petru-Daniel Tudosiu W. H. Pinaya M. Graham Pedro Borges Virginia Fernandez ... Disha Mehra M. Vella P. Nachev Sebastien Ourselin M. Jorge Cardoso 3DH DiffM MedIm 73 21 0 07 Sep 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 200 618 0 07 Sep 2022
Studying Bias in GANs through the Lens of Race V. Maluleke Neerja Thakkar Tim Brooks Ethan Weber Trevor Darrell Alexei A. Efros Angjoo Kanazawa Devin Guillory 109 36 0 06 Sep 2022
A Survey on Generative Diffusion Model Hanqun Cao Cheng Tan Zhangyang Gao Yilun Xu Guangyong Chen Pheng-Ann Heng Stan Z. Li MedIm 338 239 0 06 Sep 2022
Semantic Image Synthesis with Semantically Coupled VQ-Model Stephan Alaniz Thomas Hummel Zeynep Akata 60 6 0 06 Sep 2022