MaskGIT: Masked Generative Image Transformer

8 February 2022

William T. Freeman

Papers citing "MaskGIT: Masked Generative Image Transformer"

50 / 474 papers shown

Title
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient Zigeng Chen Xinyin Ma Gongfan Fang Xinchao Wang VLM 87 4 0 26 Nov 2024
Factorized Visual Tokenization and Generation Zechen Bai Jianxiong Gao Ziteng Gao Pichao Wang Zheng Zhang Tong He Mike Zheng Shou 75 3 0 25 Nov 2024
Rethinking Diffusion for Text-Driven Human Motion Generation Zichong Meng Yiming Xie Xiaogang Peng Zeyu Han Huaizu Jiang VGen 75 2 0 25 Nov 2024
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE Yongwei Chen Yushi Lan Shangchen Zhou Tengfei Wang Xingang Pan 100 5 0 25 Nov 2024
PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs Teng Zhou Xiaoyu Zhang Yongchuan Tang MLLM DiffM 87 0 0 24 Nov 2024
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation Wei Guo Heng Wang Jianbo Ma Weidong Cai DiffM 85 3 0 23 Nov 2024
One-Layer Transformer Provably Learns One-Nearest Neighbor In Context Zihao Li Yuan Cao Cheng Gao Yihan He Han Liu Jason M. Klusowski Jianqing Fan Mengdi Wang MLT 47 6 0 16 Nov 2024
Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer Shitong Shao Zikai Zhou Tian Ye Lichen Bai Zhiqiang Xu Zeke Xie DiffM 44 0 0 16 Nov 2024
Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules Binxu Wang Jiaqi Shang Haim Sompolinsky DiffM 36 1 0 12 Nov 2024
ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis Zanlin Ni Yulin Wang Renping Zhou Yizeng Han Jiayi Guo Zhiyuan Liu Yuan Yao Gao Huang 50 4 0 11 Nov 2024
Improved Video VAE for Latent Video Diffusion Model Pingyu Wu Kai Zhu Yu Liu Liming Zhao Wei-dong Zhai Yang Cao Zheng-jun Zha VGen DiffM 56 4 0 10 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 46 9 0 08 Nov 2024
MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views Yuedong Chen Chuanxia Zheng Haofei Xu Bohan Zhuang Andrea Vedaldi Tat-Jen Cham Jianfei Cai 3DGS 58 14 0 07 Nov 2024
Image Understanding Makes for A Good Tokenizer for Image Generation Luting Wang Yang Zhao Zijian Zhang Jiashi Feng Si Liu Bingyi Kang VLM 39 4 0 07 Nov 2024
Randomized Autoregressive Visual Generation Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VGen DiffM 57 30 1 01 Nov 2024
FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution Shuai Wang Zexian Li Tianhui Song Xubin Li Tiezheng Ge Bo Zheng L. Wang 27 1 0 30 Oct 2024
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior Hanyu Wang Saksham Suri Yixuan Ren Hao Chen Abhinav Shrivastava VGen 29 9 0 28 Oct 2024
Your Image is Secretly the Last Frame of a Pseudo Video Wenlong Chen Wenlin Chen Lapo Rastrelli Yingzhen Li DiffM VGen 34 0 0 26 Oct 2024
Scaling up Masked Diffusion Models on Text Shen Nie Fengqi Zhu Chao Du Tianyu Pang Qian Liu Guangtao Zeng Min-Bin Lin Chongxuan Li AI4CE 45 13 0 24 Oct 2024
Scaling Diffusion Language Models via Adaptation from Autoregressive Models Shansan Gong Shivam Agarwal Yizhe Zhang Jiacheng Ye Lin Zheng ... Peilin Zhao W. Bi Jiawei Han Hao Peng Lingpeng Kong AI4CE 70 15 0 23 Oct 2024
Elucidating the design space of language models for image generation Xuantong Liu Shaozhe Hao Xianbiao Qi Tianyang Hu Jun Wang Rong Xiao Yuan Yao VLM 32 3 0 21 Oct 2024
Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step Mingyuan Zhou Huangjie Zheng Yi Gu Zhendong Wang Hai Huang DiffM 44 4 0 19 Oct 2024
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities Shaozhe Hao Xuantong Liu Xianbiao Qi Shihao Zhao Bojia Zi Rong Xiao Kai Han Kwan-Yee K. Wong 43 3 0 18 Oct 2024
Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens Zhepeng Cen Yao Liu Siliang Zeng Pratik Chaudhar Huzefa Rangwala George Karypis Rasool Fakoor SyDa AIFin 34 3 0 18 Oct 2024
Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion Bac Nguyen and Chieh-Hsin Lai Yuhta Takida Naoki Murata Toshimitsu Uesaka Stefano Ermon Yuki Mitsufuji 61 0 0 18 Oct 2024
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens Lijie Fan Tianhong Li Siyang Qin Yuanzhen Li Chen Sun Michael Rubinstein Deqing Sun Kaiming He Yonglong Tian VLM DiffM 38 41 0 17 Oct 2024
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation Chengyue Wu Xiaokang Chen Z. F. Wu Yiyang Ma Xingchao Liu ... Wen Liu Zhenda Xie Xingkai Yu Chong Ruan Ping Luo AI4TS 52 74 0 17 Oct 2024
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model ZiDong Wang Zeyu Lu Di Huang Cai Zhou Wanli Ouyang and Lei Bai 74 3 0 17 Oct 2024
Unlocking the Capabilities of Masked Generative Models for Image Synthesis via Self-Guidance Jiwan Hur Dong-Jae Lee Gyojin Han Jaehyun Choi Yunho Jeon Junmo Kim DiffM 25 0 0 17 Oct 2024
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective Yongxin Zhu B. Li Hang Zhang Xin Li Linli Xu Lidong Bing DiffM 27 9 0 16 Oct 2024
Focused ReAct: Improving ReAct through Reiterate and Early Stop Shuoqiu Li Han Xu Haipeng Chen ReLM LRM 30 6 0 14 Oct 2024
Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling Wenze Liu Le Zhuo Yi Xin Sheng Xia Peng Gao Xiangyu Yue 34 6 0 14 Oct 2024
FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification J. Yao Wang Cheng Wenyu Liu Xinggang Wang 41 8 0 14 Oct 2024
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment Huayu Chen Hang Su Peize Sun J. Zhu VLM 43 3 0 12 Oct 2024
Distillation of Discrete Diffusion through Dimensional Correlations Satoshi Hayakawa Yuhta Takida Masaaki Imaizumi Hiromi Wakaki Yuki Mitsufuji DiffM 56 0 0 11 Oct 2024
$$\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models$ $\textit{Jump Your Steps}$ : Optimizing Sampling Schedule of Discrete Diffusion Models Yong-Hyun Park Chieh-Hsin Lai Satoshi Hayakawa Yuhta Takida Yuki Mitsufuji 54 4 0 10 Oct 2024
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis Jinbin Bai Tian-Chun Ye Wei Chow Enxin Song Qing-Guo Chen Xiangtai Li Zhen Dong Lei Zhu 55 13 0 10 Oct 2024
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models Xiaoxiao He Ligong Han Quan Dao Song Wen Minhao Bai ... Hongdong Li Junzhou Huang Faez Ahmed Akash Srivastava Dimitris Metaxas DiffM SyDa 38 4 0 10 Oct 2024
Masked Generative Priors Improve World Models Sequence Modelling Capabilities Cristian Meo Mircea Lica Zarif Ikram Akihiro Nakano Vedant Shah Aniket Didolkar Dianbo Liu Anirudh Goyal Justin Dauwels OffRL 90 0 0 10 Oct 2024
G2D2: Gradient-guided Discrete Diffusion for image inverse problem solving Naoki Murata Chieh-Hsin Lai Yuhta Takida Toshimitsu Uesaka Bac Nguyen Stefano Ermon Yuki Mitsufuji DiffM 51 1 0 09 Oct 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 68 62 0 09 Oct 2024
Block Induced Signature Generative Adversarial Network (BISGAN): Signature Spoofing Using GANs and Their Evaluation Haadia Amjad Kilian Goeller Steffen Seitz Carsten Knoll Naseer Bajwa R. Tetzlaff Muhammad Imran Malik 45 0 0 08 Oct 2024
Think While You Generate: Discrete Diffusion with Planned Denoising Sulin Liu Juno Nam Andrew Campbell Hannes Stärk Yilun Xu Tommi Jaakkola Rafael Gómez-Bombarelli DiffM 33 6 0 08 Oct 2024
Restructuring Vector Quantization with the Rotation Trick Christopher Fifty Ronald G. Junkins Dennis Duan Aniketh Iger Jerry W. Liu Ehsan Amid Sebastian Thrun Christopher Ré LLMSV 43 11 0 08 Oct 2024
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs Louis Serrano Armand K. Koupai Thomas X. Wang Pierre Erbacher Patrick Gallinari AI4CE 26 3 0 04 Oct 2024
ECHOPulse: ECG controlled echocardio-grams video generation Yiwei Li Sekeun Kim Zihao Wu Hanqi Jiang Yi Pan ... Sifan Song Yucheng Shi Tianming Liu Quanzheng Li Xiang Li VGen 24 1 0 04 Oct 2024
Plug-and-Play Controllable Generation for Discrete Masked Models Wei Guo Yuchen Zhu Molei Tao Yongxin Chen 32 1 0 03 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 46 23 0 03 Oct 2024
MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation T. Pham Tri Ton Chang D. Yoo 36 3 0 03 Oct 2024
TAEGAN: Generating Synthetic Tabular Data For Data Augmentation Jiayu Li Zilong Zhao Kevin Yee Uzair Javaid Biplab Sikdar LMTD 29 1 0 02 Oct 2024