MaskGIT: Masked Generative Image Transformer

8 February 2022

William T. Freeman

Papers citing "MaskGIT: Masked Generative Image Transformer"

50 / 474 papers shown

Title
Continuous Visual Autoregressive Generation via Score Maximization Chenze Shao Fandong Meng Jie Zhou DiffM 26 0 0 12 May 2025
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Qingfu Zhang Zhenan Sun Ying Shan MLLM VLM 68 0 0 08 May 2025
Guide your favorite protein sequence generative model Junhao Xiong Hunter Nisonoff Ishan Gaur Jennifer Listgarten DiffM 51 0 0 07 May 2025
GarmentX: Autoregressive Parametric Representations for High-Fidelity 3D Garment Generation Jingfeng Guo J. Chen Weikai Chen Zhenyu Sun Lanjiong Li Baozhu Zhao Lingting Zhu X. Wang Qi Liu 3DH 80 0 0 29 Apr 2025
Fast Autoregressive Models for Continuous Latent Generation Tiankai Hang Jianmin Bao Fangyun Wei Dong Chen DiffM 75 0 0 24 Apr 2025
Distilling semantically aware orders for autoregressive image generation Rishav Pramanik Antoine Poupon Juan A. Rodriguez Masih Aminbeidokhti David Vazquez Christopher Pal Zhaozheng Yin M. Pedersoli 26 0 0 23 Apr 2025
Autoregressive Distillation of Diffusion Transformers Yeongmin Kim Sotiris Anagnostidis Yuming Du Edgar Schönfeld Jonas Kohler Markos Georgopoulos Albert Pumarola Ali K. Thabet A. Sanakoyeu 26 0 0 15 Apr 2025
Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing Taihang Hu Linxuan Li Kai Wang Yaxing Wang Jian Yang Ming-Ming Cheng DiffM VGen 23 0 0 14 Apr 2025
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers Xingjian Leng Jaskirat Singh Yunzhong Hou Zhenchang Xing Saining Xie Liang Zheng 34 0 0 14 Apr 2025
D $^2$ iT: Dynamic Diffusion Transformer for Accurate Image Generation Weinan Jia Mengqi Huang Nan Chen Lei Zhang Zhendong Mao 21 0 0 13 Apr 2025
EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation Xiangyue Zhang Jianfang Li Jiaxu Zhang Jianqiang Ren Liefeng Bo Zhigang Tu 27 0 0 12 Apr 2025
Synthetic Aircraft Trajectory Generation Using Time-Based VQ-VAE Abdulmajid Murad Massimiliano Ruocco 19 0 0 12 Apr 2025
MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer Yilin Wang Chuan Guo Yuxuan Mu Muhammad Gohar Javed X. Zuo Juwei Lu Hai Jiang Li Cheng VGen 30 0 0 11 Apr 2025
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft Junliang Guo Yang Ye Tianyu He Haoyu Wu Yushu Jiang Tim Pearce Jiang Bian VGen SyDa 49 2 0 11 Apr 2025
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 47 2 0 11 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 33 0 0 11 Apr 2025
PixelFlow: Pixel-Space Generative Models with Flow Shoufa Chen Chongjian Ge Shilong Zhang Peize Sun Ping Luo VLM DRL 35 0 0 10 Apr 2025
A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model Jihun Park Jongmin Gim Kyoungmin Lee Minseok Oh Minwoo Choi Jaeyeul Kim Woo Chool Park Sunghoon Im DiffM 27 0 0 08 Apr 2025
One-Minute Video Generation with Test-Time Training Karan Dalal Daniel Koceja Gashon Hussein Jiarui Xu Yue Zhao ... Tatsunori Hashimoto Sanmi Koyejo Yejin Choi Yu Sun Xiaolong Wang ViT 91 3 0 07 Apr 2025
DanceMosaic: High-Fidelity Dance Generation with Multimodal Editability Foram Niravbhai Shah Parshwa Shah Muhammad Usama Saleem Ekkasit Pinyoanuntapong Pu Wang Hongfei Xue Ahmed Helmy VGen 36 0 0 06 Apr 2025
Exploration-Driven Generative Interactive Environments N. Savov Naser Kazemi Mohammad Mahdi Danda Pani Paudel Xi Wang Luc Van Gool VGen 3DV 38 0 0 03 Apr 2025
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement Runhui Huang Chunwei Wang Junwei Yang Guansong Lu Yunlong Yuan ... Lu Hou Wei Zhang Lanqing Hong Hengshuang Zhao Hang Xu MLLM 83 2 0 02 Apr 2025
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization Siyuan Li L. Zhang Zedong Wang Juanxi Tian Cheng Tan ... Chang Yu Qingsong Xie Haonan Lu Haoqian Wang Zhen Lei 46 0 0 01 Apr 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu W. Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 130 2 0 27 Mar 2025
Unified Multimodal Discrete Diffusion Alexander Swerdlow Mihir Prabhudesai Siddharth Gandhi Deepak Pathak Katerina Fragkiadaki DiffM 75 0 0 26 Mar 2025
Synthetic Video Enhances Physical Fidelity in Video Synthesis Qi Zhao Xingyu Ni Ziyu Wang Feng Cheng Ziyan Yang Lu Jiang Bohan Wang VGen 41 2 0 26 Mar 2025
MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation Jinnan Chen Lingting Zhu Zeyu Hu Shengju Qian Y. Chen Xin Wang G. Lee 102 1 0 26 Mar 2025
Panorama Generation From NFoV Image Done Right Dian Zheng Cheng Zhang Xiao-Ming Wu Cao Li Chengfei Lv Jian-Fang Hu Wei-Shi Zheng DiffM 79 0 0 24 Mar 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 44 0 0 22 Mar 2025
Zero-Shot Styled Text Image Generation, but Make It Autoregressive Vittorio Pippi Fabio Quattrini S. Cascianelli Alessio Tonioni Rita Cucchiara 37 0 0 21 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 45 0 0 21 Mar 2025
Position: Interactive Generative Video as Next-Generation Game Engine Jiwen Yu Yiran Qin Haoxuan Che Quande Liu Xintao Wang Pengfei Wan Di Zhang Xihui Liu VGen 45 1 0 21 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 52 1 0 21 Mar 2025
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation Y. Wang Zhijie Lin Yao Teng Yuanzhi Zhu Shuhuai Ren Jiashi Feng Xihui Liu 48 0 0 20 Mar 2025
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction Ziyao Guo K. Zhang Michael Qizhe Shieh 38 0 0 20 Mar 2025
Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens Shuqi Lu Haowei Lin Lin Yao Zhifeng Gao Xiaohong Ji W. Elwasif Linfeng Zhang Guolin Ke 45 0 0 20 Mar 2025
Tokenize Image as a Set Zigang Geng Mengde Xu Han Hu Shuyang Gu DiffM 48 0 0 20 Mar 2025
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space Lixing Xiao Shunlin Lu Huaijin Pi Ke Fan Liang Pan Yueer Zhou Ziyong Feng Xiaowei Zhou Sida Peng Jingbo Wang DiffM VGen 43 4 0 19 Mar 2025
CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation Masud Ahmed Zahid Hasan Syed Arefinul Haque A. Faridee S. Purushotham Suya You Nirmalya Roy 50 0 0 19 Mar 2025
Fast Autoregressive Video Generation with Diagonal Decoding Yang Ye Junliang Guo Haoyu Wu Tianyu He Tim Pearce Tabish Rashid Katja Hofmann Jiang Bian DiffM VGen 73 1 0 18 Mar 2025
LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching Feihong Yan Qingyan Wei Jiayi Tang J. Li Y. Wang Xuming Hu Huiqi Li Linfeng Zhang 52 0 0 16 Mar 2025
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models Ziqin Zhou Yifan Yang Y. Yang Tianyu He Houwen Peng Kai Qiu Qi Dai Lili Qiu Chong Luo Lingqiao Liu DiffM VGen 54 1 0 14 Mar 2025
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 52 0 0 14 Mar 2025
Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization Kyle Sargent Kyle Hsu Justin Johnson L. Fei-Fei Jiajun Wu DiffM MU 53 3 0 14 Mar 2025
Autoregressive Image Generation with Randomized Parallel Decoding Haopeng Li Jinyue Yang Guoqi Li Huan Wang 53 0 0 13 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 67 3 0 13 Mar 2025
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models Runze He Bo Cheng Yuhang Ma Qingxiang Jia Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin DiffM VLM 47 0 0 13 Mar 2025
Autoregressive Image Generation with Vision Full-view Prompt Miaomiao Cai G. Wang Wei Li Zhijun Tu Hanting Chen Shaohui Lin Jie Hu LRM 62 0 0 13 Mar 2025
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models Marianne Arriola Aaron Gokaslan Justin T Chiu Zhihan Yang Zhixuan Qi Jiaqi Han S. Sahoo Volodymyr Kuleshov DiffM 67 4 0 12 Mar 2025
3D Point Cloud Generation via Autoregressive Up-sampling Ziqiao Meng Qichao Wang Zhipeng Zhou Irwin King Peilin Zhao 3DPC 59 0 0 11 Mar 2025