Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

6 September 2024

Ying Shan

Papers citing "Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation"

50 / 92 papers shown

Title
Memory-Efficient Visual Autoregressive Modeling with Scale-Aware KV Cache Compression Kunjun Li Zigeng Chen Cheng-Yen Yang Jenq-Neng Hwang 63 0 0 26 May 2025
TensorAR: Refinement is All You Need in Autoregressive Image Generation Cheng Cheng Lin Song Yicheng Xiao Yuxin Chen Xuchong Zhang Hongbin Sun Ying Shan VGen 57 0 0 22 May 2025
VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation Huawei Lin Tong Geng Zhaozhuo Xu Weijie Zhao VLM 104 1 0 19 May 2025
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Qingfu Zhang Zhenan Sun Ying Shan MLLM VLM 94 1 0 08 May 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 100 2 0 24 Apr 2025
GeoUni: A Unified Model for Generating Geometry Diagrams, Problems and Problem Solutions Jo-Ku Cheng Zeren Zhang Ran Chen Jingyang Deng Ziran Qin Jinwen Ma 49 0 0 14 Apr 2025
D $^2$ iT: Dynamic Diffusion Transformer for Accurate Image Generation Weinan Jia Mengqi Huang Nan Chen Lei Zhang Zhendong Mao 47 0 0 13 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 52 0 0 11 Apr 2025
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding Yang Jiao Haibo Qiu Zequn Jie Tian Jin Jingjing Chen Lin Ma Yu Jiang 67 5 0 06 Apr 2025
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization Siyuan Li Lefei Zhang Zedong Wang Juanxi Tian Cheng Tan ... Chang Yu Qingsong Xie Haonan Lu Haoqian Wang Zhen Lei 87 0 0 01 Apr 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu Wentao Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 350 5 0 27 Mar 2025
Unified Multimodal Discrete Diffusion Alexander Swerdlow Mihir Prabhudesai Siddharth Gandhi Deepak Pathak Katerina Fragkiadaki DiffM 104 4 0 26 Mar 2025
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models Alex Jinpeng Wang Linjie Li Zhiyong Yang Lijuan Wang Min Li DiffM 89 0 0 26 Mar 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 65 0 0 22 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 68 0 0 21 Mar 2025
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction Ziyao Guo Kai Zhang Michael Qizhe Shieh 43 0 0 20 Mar 2025
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation Yanjie Wang Zhijie Lin Yao Teng Yuanzhi Zhu Shuhuai Ren Jiashi Feng Xihui Liu 71 2 0 20 Mar 2025
Deeply Supervised Flow-Based Generative Models Inkyu Shin Chenglin Yang Liang-Chieh Chen 75 1 0 18 Mar 2025
DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies Wei Song Yansen Wang Zijia Song Yadong Li Haoze Sun Xin Wu Guosheng Dong Jianhua Xu Jiaqi Wang Kaicheng Yu 76 3 0 18 Mar 2025
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 117 0 0 14 Mar 2025
Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization Kyle Sargent Kyle Hsu Justin Johnson L. Fei-Fei Jiajun Wu DiffM MU 99 6 0 14 Mar 2025
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis Kai Qiu Xianrui Li Jason Kuen Hong Chen Xiaohao Xu Jiuxiang Gu Yinyi Luo Bhiksha Raj Zhe Lin Marios Savvides 83 1 0 11 Mar 2025
V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation Guiwei Zhang Tianyu Zhang Mohan Zhou Yalong Bai Biye Li 108 0 0 10 Mar 2025
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation Hritik Bansal Clark Peng Yonatan Bitton Roman Goldenberg Aditya Grover Kai-Wei Chang EGVM VGen 74 4 0 09 Mar 2025
Frequency Autoregressive Image Generation with Continuous Tokens Hu Yu Hao Luo Hangjie Yuan Yu Rong Feng Zhao VGen 69 5 0 07 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 114 2 0 06 Mar 2025
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator Kaiwen Zheng Yongxin Chen Huayu Chen Guande He Xuan Li Jun Zhu Qinsheng Zhang DiffM 80 1 0 03 Mar 2025
FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction Siyu Jiao Gengwei Zhang Yinlong Qian Jiancheng Huang Yao Zhao Humphrey Shi Lin Ma Y. X. Wei Zequn Jie VLM 74 2 0 27 Feb 2025
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation Sucheng Ren Qihang Yu Ju He Xiaohui Shen Alan Yuille Liang-Chieh Chen VGen 126 9 0 27 Feb 2025
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens Dongwon Kim Ju He Qihang Yu Chenglin Yang Xiaohui Shen Suha Kwak Liang-Chieh Chen VLM 93 7 0 13 Jan 2025
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers Yuntao Chen Yuqi Wang Zhaoxiang Zhang 385 8 0 24 Dec 2024
When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization Vivek Ramanujan Kushal Tirumala Armen Aghajanyan Luke Zettlemoyer Ali Farhadi DiffM 100 2 0 20 Dec 2024
Next Patch Prediction for Autoregressive Visual Generation Yatian Pang Peng Jin Shuo Yang Bin Lin Bin Zhu ... Liuhan Chen Francis E. H. Tay Ser-Nam Lim Harry Yang Li Yuan 172 10 0 19 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer Hong Chen Zihan Wang Xianrui Li Xingwu Sun Fangyi Chen Jiang Liu Jiadong Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 159 8 0 14 Dec 2024
[MASK] is All You Need Vincent Tao Hu Bjorn Ommer DiffM 167 5 0 09 Dec 2024
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis J. N. Han Jinlai Liu Yi Jiang Bin Yan Yuqi Zhang Zehuan Yuan Bingyue Peng Xiaobing Liu 90 48 0 05 Dec 2024
TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation Liao Qu Huichao Zhang Yiheng Liu Xinyu Wang Yi Jiang Yiming Gao Hu Ye Daniel K. Du Zehuan Yuan Xinglong Wu 97 30 0 04 Dec 2024
RandAR: Decoder-only Autoregressive Visual Generation in Random Orders Ziqi Pang Tianyuan Zhang Fujun Luan Yunze Man Hao Tan Kai Zhang William T. Freeman Yu-Xiong Wang VGen 109 16 0 02 Dec 2024
XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation Xianrui Li Kai Qiu Hong Chen Jason Kuen Jiuxiang Gu Jiadong Wang Zhe Lin Bhiksha Raj VLM 164 7 0 02 Dec 2024
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient Zigeng Chen Xinyin Ma Gongfan Fang Xinchao Wang VLM 114 6 0 26 Nov 2024
Factorized Visual Tokenization and Generation Zechen Bai Jianxiong Gao Ziteng Gao Pichao Wang Zheng Zhang Tong He Mike Zheng Shou 112 3 0 25 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... Hao Fei Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 115 11 0 08 Nov 2024
GenXD: Generating Any 3D and 4D Scenes Yuyang Zhao Chung-Ching Lin Kevin Qinghong Lin Zhiwen Yan Linjie Li Zhiyong Yang Jianfeng Wang G. Lee Lijuan Wang VGen 76 15 0 04 Nov 2024
Randomized Autoregressive Visual Generation Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VGen DiffM 89 33 1 01 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 75 3 0 29 Oct 2024
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior Hanyu Wang Saksham Suri Yixuan Ren Hao Chen Abhinav Shrivastava VGen 64 10 0 28 Oct 2024
Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling Wenze Liu Le Zhuo Yi Xin Sheng Xia Peng Gao Xiangyu Yue 94 8 0 14 Oct 2024
CAR: Controllable Autoregressive Modeling for Visual Generation Ziyu Yao Jialin Li Yifeng Zhou Yong Liu Xi Jiang Chengjie Wang Feng Zheng Yuexian Zou Lei Li DiffM 90 15 0 07 Oct 2024
ControlAR: Controllable Image Generation with Autoregressive Models Zongming Li Tianheng Cheng Shoufa Chen Peize Sun Haocheng Shen Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang DiffM 185 17 0 03 Oct 2024
ImageFolder: Autoregressive Image Generation with Folded Tokens Xiang Li Kai Qiu Hao Chen Jason Kuen Jiuxiang Gu Bhiksha Raj Zhe Lin VLM 58 22 0 02 Oct 2024