Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

3 April 2024

Papers citing "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"

49 / 99 papers shown

Title
Circuit Complexity Bounds for Visual Autoregressive Model Yekun Ke Xiaoyu Li Yingyu Liang Zhenmei Shi Zhao Song 45 5 0 08 Jan 2025
Next Patch Prediction for Autoregressive Visual Generation Yatian Pang Peng Jin Shuo Yang Bin Lin Bin Zhu ... Liuhan Chen Francis E. H. Tay Ser-Nam Lim Harry Yang Li Yuan 137 9 0 19 Dec 2024
Parallelized Autoregressive Visual Generation Yunhong Wang Shuhuai Ren Zhijie Lin Yujin Han Haoyuan Guo Zhenheng Yang Difan Zou Jiashi Feng Xihui Liu VGen 95 12 0 19 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer Hongyu Chen Zihan Wang Xianrui Li Xingchen Sun Fangyi Chen Jiang Liu Rongxiang Weng Bhiksha Raj Zicheng Liu Emad Barsoum VLM 114 7 0 14 Dec 2024
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis Anton Voronov Denis Kuznedelev Mikhail Khoroshikh Valentin Khrulkov Dmitry Baranchuk 119 2 0 02 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 137 6 0 28 Nov 2024
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing Hanhui Wang Yihua Zhang Ruizheng Bai Yue Zhao Sijia Liu Zhuowen Tu AAML PICV 103 2 0 25 Nov 2024
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE Yongwei Chen Yushi Lan Shangchen Zhou Tengfei Wang Xingang Pan 104 5 0 25 Nov 2024
PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs Teng Zhou Xiaoyu Zhang Yongchuan Tang MLLM DiffM 100 0 0 24 Nov 2024
Frontiers in Intelligent Colonoscopy Ge-Peng Ji Jingyi Liu Peng Xu Nick Barnes Fahad Shahbaz Khan Salman Khan Deng-Ping Fan 49 4 0 22 Oct 2024
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective Yongxin Zhu B. Li Hang Zhang Xin Li Linli Xu Lidong Bing DiffM 42 9 0 16 Oct 2024
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Joey Tianyi Zhou 82 17 0 16 Oct 2024
GlobalMamba: Global Image Serialization for Vision Mamba Chengkun Wang Wenzhao Zheng Jie Zhou Jiwen Lu Mamba 51 0 0 14 Oct 2024
Generalizable autoregressive modeling of time series through functional narratives Ran Liu Wenrui Ma Ellen L. Zippi Hadi Pouransari Jingyun Xiao ... Behrooz Mahasseni Juri Minxha Erdrin Azemi Eva L. Dyer Ali Moin AI4TS 48 1 0 10 Oct 2024
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation Jiatao Gu Yuyang Wang Yizhe Zhang Qihang Zhang Dinghuai Zhang Navdeep Jaitly Josh Susskind Shuangfei Zhai DiffM 39 13 0 10 Oct 2024
ElasticTok: Adaptive Tokenization for Image and Video Wilson Yan Matei A. Zaharia Volodymyr Mnih Pieter Abbeel Aleksandra Faust Hao Liu VGen 54 6 0 10 Oct 2024
Pyramidal Flow Matching for Efficient Video Generative Modeling Yang Jin Zhicheng Sun Ningyuan Li Kun Xu K. Xu ... Nan Zhuang Quzhe Huang Yang Song Yadong Mu Zhouchen Lin VGen 79 66 0 08 Oct 2024
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding Doohyuk Jang Sihwan Park J. Yang Yeonsung Jung Jihun Yun Souvik Kundu Sung-Yub Kim Eunho Yang 51 7 0 04 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 58 23 0 03 Oct 2024
ControlAR: Controllable Image Generation with Autoregressive Models Zongming Li Tianheng Cheng Shoufa Chen Peize Sun Haocheng Shen Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang DiffM 138 15 0 03 Oct 2024
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding Yao Teng Han Shi Xian Liu Xuefei Ning Guohao Dai Yu Wang Zhenguo Li Xihui Liu 58 10 0 02 Oct 2024
BAD: Bidirectional Auto-regressive Diffusion for Text-to-Motion Generation Seyed Rohollah Hosseyni Ali Ahmad Rahmani S. J. Seyedmohammadi Sanaz Seyedin Arash Mohammadi DiffM 53 7 0 17 Sep 2024
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection Yaning Zhang Tianyi Wang Zitong Yu Zan Gao Linlin Shen Shengyong Chen DiffM 76 3 0 15 Sep 2024
G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer Jinzhi Zhang Feng Xiong Mu Xu 36 6 0 10 Sep 2024
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan VLM 52 53 0 06 Sep 2024
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving Julong Wei Shanshuai Yuan Pengfei Li Qingda Hu Zhongxue Gan Wenchao Ding VLM 39 17 0 05 Sep 2024
Vec2Face: Scaling Face Dataset Generation with Loosely Constrained Vectors Haiyu Wu Jaskirat Singh Sicong Tian Liang Zheng Kevin W. Bowyer CVBM 44 3 0 04 Sep 2024
Scalable Autoregressive Image Generation with Mamba Haopeng Li Jinyue Yang Kexin Wang Xuerui Qiu Yuhong Chou Xin Li Guoqi Li Mamba 63 13 0 22 Aug 2024
Exploring the Potentials and Challenges of Deep Generative Models in Product Design Conception Phillip Mueller Lars Mikelsons AI4CE 46 1 0 15 Jul 2024
Coding for Intelligence from the Perspective of Category Wenhan Yang Zixuan Hu Lilang Lin Jiaying Liu Ling-Yu Duan AI4CE 58 1 0 01 Jul 2024
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning Alexander Nikulin Ilya Zisman Alexey Zemtsov Viacheslav Sinii 120 5 0 13 Jun 2024
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan VLM 68 230 0 10 Jun 2024
Edit Distance Robust Watermarks for Language Models Noah Golowich Ankur Moitra AAML WaLM 47 5 0 04 Jun 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 90 7 0 27 May 2024
Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models Fan Bao Chendong Xiang Gang Yue Guande He Hongzhou Zhu Kaiwen Zheng Min Zhao Shilong Liu Yaole Wang Jun Zhu VGen 123 53 0 07 May 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 114 219 0 23 Jan 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 85 43 0 18 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 176 972 0 21 Dec 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 526 0 02 Jan 2023
MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation Chuanxia Zheng L. Vuong Jianfei Cai Dinh Q. Phung MQ 76 73 0 19 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 390 12,150 0 04 Mar 2022
Autoregressive Image Generation using Residual Quantization Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han VGen 181 334 0 03 Mar 2022
StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets Axel Sauer Katja Schwarz Andreas Geiger 187 498 0 01 Feb 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 322 7,503 0 11 Nov 2021
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 218 1,664 0 15 Oct 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 257 4,816 0 24 Feb 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,532 0 23 Jan 2020
A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras S. Laine Timo Aila 312 10,391 0 12 Dec 2018
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 228 21,841 0 09 Dec 2016