Autoregressive Image Generation using Residual Quantization

3 March 2022

Papers citing "Autoregressive Image Generation using Residual Quantization"

42 / 92 papers shown

Title
Informed Correctors for Discrete Diffusion Models Yixiu Zhao Jiaxin Shi Lester W. Mackey Scott W. Linderman Lester Mackey Scott Linderman 51 9 0 30 Jul 2024
Balance of Number of Embedding and their Dimensions in Vector Quantization Hang Chen Sankepally Sainath Reddy Ziwei Chen Dianbo Liu 49 1 0 06 Jul 2024
Grounding Multimodal Large Language Models in Actions Andrew Szot Bogdan Mazoure Harsh Agrawal Devon Hjelm Z. Kira Alexander Toshev LM&Ro 35 10 0 12 Jun 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 60 85 0 11 Jun 2024
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan VLM 66 229 0 10 Jun 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 65 32 0 07 Jun 2024
MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training Kengo Uchida Takashi Shibuya Yuhta Takida Naoki Murata Shusuke Takahashi Shusuke Takahashi Yuki Mitsufuji VGen 54 5 0 04 Jun 2024
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection Zhiyuan He Pin-Yu Chen Tsung-Yi Ho 44 12 0 30 May 2024
UniCode: Learning a Unified Codebook for Multimodal Large Language Models Sipeng Zheng Bohan Zhou Yicheng Feng Ye Wang Zongqing Lu VLM MLLM 46 7 0 14 Mar 2024
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension Lei Zhu Fangyun Wei Yanye Lu MLLM VLM 52 17 0 12 Mar 2024
MOC-RVQ: Multilevel Codebook-assisted Digital Generative Semantic Communication Yingbin Zhou Yaping Sun Guanying Chen Xiaodong Xu Hao Chen Binhong Huang Shuguang Cui Ping Zhang 19 6 0 02 Jan 2024
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis Yu Zhang Rongjie Huang Ruiqi Li Jinzheng He Yan Xia Feiyang Chen Xinyu Duan Baoxing Huai Zhou Zhao VLM 26 17 0 17 Dec 2023
Kandinsky 3.0 Technical Report V.Ya. Arkhipkin Andrei Filatov Viacheslav Vasilev Anastasia Maltseva Said Azizov Igor Pavlov Julia Agafonova Andrey Kuznetsov Denis Dimitrov DiffM 30 12 0 06 Dec 2023
Does Vector Quantization Fail in Spatio-Temporal Forecasting? Exploring a Differentiable Sparse Soft-Vector Quantization Approach Chao Chen Tian Zhou Yanjun Zhao Hui Liu Liang Sun Rong Jin 40 0 0 06 Dec 2023
DiffiT: Diffusion Vision Transformers for Image Generation Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat 39 67 0 04 Dec 2023
Cousins Of The Vendi Score: A Family Of Similarity-Based Diversity Metrics For Science And Machine Learning Amey P. Pasarkar Adji Bousso Dieng 27 11 0 19 Oct 2023
MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations Heyuan Yao Zhenhua Song Yuyang Zhou Tenglong Ao Baoquan Chen Libin Liu 21 38 0 16 Oct 2023
Language Models As Semantic Indexers Bowen Jin Hansi Zeng Guoyin Wang Xiusi Chen Tianxin Wei ... Yang Li Hanqing Lu Suhang Wang Jiawei Han Xianfeng Tang RALM 40 18 0 11 Oct 2023
Improving Compositional Text-to-image Generation with Large Vision-Language Models Song Wen Guian Fang Renrui Zhang Peng Gao Hao Dong Dimitris N. Metaxas 25 17 0 10 Oct 2023
Transformer-VQ: Linear-Time Transformers via Vector Quantization Albert Mohwald 34 15 0 28 Sep 2023
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images Cuican Yu Guansong Lu Yihan Zeng Jian Sun Xiaodan Liang Huibin Li Zongben Xu Songcen Xu Wei Zhang Hang Xu 47 14 0 31 Aug 2023
Flow Matching in Latent Space Quan Dao Hao Phung Binh Duc Nguyen Anh Tran 37 62 0 17 Jul 2023
SoundStorm: Efficient Parallel Audio Generation Zalan Borsos Matthew Sharifi Damien Vincent Eugene Kharitonov Neil Zeghidour Marco Tagliasacchi 28 98 0 16 May 2023
StyleGenes: Discrete and Efficient Latent Distributions for GANs Evangelos Ntavelis Mohamad Shahbazi I. Kastanis Radu Timofte Martin Danelljan Luc Van Gool 43 1 0 30 Apr 2023
Variational Distribution Learning for Unsupervised Text-to-Image Generation Minsoo Kang Doyup Lee Jiseob Kim Saehoon Kim Bohyung Han DRL OOD 27 3 0 28 Mar 2023
Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding Jiacheng Li Longhui Wei Zongyuan Zhan Xinfu He Siliang Tang Qi Tian Yueting Zhuang 24 4 0 07 Mar 2023
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 34 7 0 06 Mar 2023
Balanced Training for Sparse GANs Yite Wang Jing Wu N. Hovakimyan Ruoyu Sun 48 9 0 28 Feb 2023
Self-Organising Neural Discrete Representation Learning à la Kohonen Kazuki Irie Róbert Csordás Jürgen Schmidhuber SSL 32 1 0 15 Feb 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 521 0 02 Jan 2023
Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis Weixi Feng Xuehai He Tsu-jui Fu Varun Jampani Arjun Reddy Akula P. Narayana Sugato Basu Qing Guo William Yang Wang CoGe 51 299 0 09 Dec 2022
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation Zutao Jiang Guangsong Lu Xiaodan Liang Jihua Zhu Wei Zhang Xiaojun Chang Hang Xu DiffM 21 8 0 02 Dec 2022
Unified Discrete Diffusion for Simultaneous Vision-Language Generation Minghui Hu Chuanxia Zheng Heliang Zheng Tat-Jen Cham Chaoyue Wang Zuopeng Yang Dacheng Tao Ponnuthurai Nagaratnam Suganthan DiffM 20 23 0 27 Nov 2022
Assessing Neural Network Robustness via Adversarial Pivotal Tuning Peter Ebert Christensen Vésteinn Snaebjarnarson Andrea Dittadi Serge Belongie Sagie Benaim AAML 23 1 0 17 Nov 2022
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis Tianhong Li Huiwen Chang Shlok Kumar Mishra Han Zhang Dina Katabi Dilip Krishnan 41 152 0 16 Nov 2022
The Vendi Score: A Diversity Evaluation Metric for Machine Learning Dan Friedman Adji Bousso Dieng EGVM 94 111 0 05 Oct 2022
MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation Chuanxia Zheng L. Vuong Jianfei Cai Dinh Q. Phung MQ 71 72 0 19 Sep 2022
Multimodal Image Synthesis and Editing: The Generative AI Era Fangneng Zhan Yingchen Yu Rongliang Wu Jiahui Zhang Shijian Lu Lingjie Liu Adam Kortylewski Christian Theobalt Eric Xing EGVM 29 48 0 27 Dec 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021
A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras S. Laine Timo Aila 306 10,368 0 12 Dec 2018
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,455 0 21 Nov 2016
Pixel Recurrent Neural Networks Aaron van den Oord Nal Kalchbrenner Koray Kavukcuoglu SSeg GAN 263 2,550 0 25 Jan 2016