MaskGIT: Masked Generative Image Transformer

8 February 2022

William T. Freeman

Papers citing "MaskGIT: Masked Generative Image Transformer"

50 / 474 papers shown

Title
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation Liang Chen Sinan Tan Zefan Cai Weichu Xie Haozhe Zhao Yichi Zhang Junyang Lin Jinze Bai Tianyu Liu Baobao Chang ViT 50 3 0 02 Oct 2024
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding Yao Teng Han Shi Xian Liu Xuefei Ning Guohao Dai Yu Wang Zhenguo Li Xihui Liu 48 10 0 02 Oct 2024
Denoising with a Joint-Embedding Predictive Architecture Dengsheng Chen Jie Hu Xiaoming Wei Enhua Wu DiffM 52 2 0 02 Oct 2024
MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation Wenchao Chen Liqiang Niu Ziyao Lu Fandong Meng Jie Zhou Mamba 30 4 0 30 Sep 2024
Text-driven Human Motion Generation with Motion Masked Diffusion Model Xingyu Chen DiffM VGen 28 2 0 29 Sep 2024
From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation Kun Su Xiulong Liu Eli Shlizerman VGen 30 6 0 27 Sep 2024
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner Wenliang Zhao Minglei Shi Xumin Yu Jie Zhou Jiwen Lu 32 0 0 26 Sep 2024
MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling Weihao Yuan Weichao Shen Yisheng He Yuan Dong Xiaodong Gu Zilong Dong Liefeng Bo Qixing Huang MQ 31 2 0 26 Sep 2024
Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model Shoma Iwai Atsuki Osanai Shunsuke Kitada S. Omachi 3DV 20 2 0 25 Sep 2024
MaskBit: Embedding-free Image Generation via Bit Tokens Mark Weber Lijun Yu Qihang Yu XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen DiffM 49 30 0 24 Sep 2024
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions Weifeng Lin Xinyu Wei Renrui Zhang Le Zhuo Shitian Zhao ... Junlin Xie Junlin Xie Yu Qiao Peng Gao Hongsheng Li MLLM DiffM 57 10 0 23 Sep 2024
2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction Atsuya Nakata Takao Yamanaka 25 1 0 16 Sep 2024
Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility Xiaoyu Liu Xu Li Joan Serra Santiago Pascual 29 3 0 14 Sep 2024
Learning Generative Interactive Environments By Trained Agent Exploration Naser Kazemi N. Savov Danda Paudel Luc Van Gool 34 2 0 10 Sep 2024
Investigating Neural Audio Codecs for Speech Language Model-Based Speech Generation Jiaqi Li Dongmei Wang Xiaofei Wang Yao Qian Long Zhou ... Junkun Chen Sheng Zhao Jinyu Li Zhizheng Wu Michael Zeng AuLLM 30 2 0 06 Sep 2024
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan VLM 48 51 0 06 Sep 2024
EarthGen: Generating the World from Top-Down Views Ansh Sharma Albert Xiao Praneet Rathi Rohit Kundu Albert Zhai Yuan Shen Shenlong Wang 28 0 0 02 Sep 2024
MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer Yuancheng Wang Haoyue Zhan Liwei Liu Ruihong Zeng Haotian Guo Jiachen Zheng Qiang Zhang Shunsi Zhang Shunsi Zhang Zhizheng Wu 34 38 0 01 Sep 2024
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation Zanlin Ni Yulin Wang Renping Zhou Rui Lu Jiayi Guo Jinyi Hu Zhiyuan Liu Yuan Yao Gao Huang 29 7 0 31 Aug 2024
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher T. Dao Thuan Hoang Nguyen T. Le D. Vu Khoi Nguyen Cuong Pham Anh Tran DiffM 36 11 0 26 Aug 2024
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation Jinheng Xie Weijia Mao Zechen Bai David Junhao Zhang Weihao Wang Kevin Qinghong Lin Yuchao Gu Zhijie Chen Zhenheng Yang Mike Zheng Shou 46 160 0 22 Aug 2024
Multi-Style Facial Sketch Synthesis through Masked Generative Modeling Bowen Sun Guo Lu Shibao Zheng CVBM 30 0 0 22 Aug 2024
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 64 6 0 13 Aug 2024
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators Yifan Pu Zhuofan Xia Jiayi Guo Dongchen Han Qixiu Li ... Ji Li Yizeng Han Shiji Song Gao Huang Xiu Li 56 11 0 11 Aug 2024
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer Jiazhi Guan Zhiliang Xu Hang Zhou Kaisiyuan Wang Shengyi He ... Errui Ding Jingtuo Liu Jingdong Wang Youjian Zhao Ziwei Liu VGen 46 2 0 06 Aug 2024
VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling Qian Zhang Xiangzi Dai Ninghua Yang Xiang An Ziyong Feng Xingyu Ren VLM CLIP 43 17 0 02 Aug 2024
Informed Correctors for Discrete Diffusion Models Yixiu Zhao Jiaxin Shi Lester W. Mackey Scott W. Linderman Lester Mackey Scott Linderman 44 9 0 30 Jul 2024
QueST: Self-Supervised Skill Abstractions for Learning Continuous Control Atharva Mete Haotian Xue Albert Wilcox Yongxin Chen Animesh Garg SSL 30 16 0 22 Jul 2024
Discrete Flow Matching Itai Gat Tal Remez Neta Shaul Felix Kreuk Ricky T. Q. Chen Gabriel Synnaeve Yossi Adi Y. Lipman DiffM 47 57 0 22 Jul 2024
WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation Zirui Shao Feiyu Gao Hangdi Xing Zepeng Zhu Zhi Yu Jiajun Bu Qi Zheng Cong Yao 21 2 0 22 Jul 2024
TransCAD: A Hierarchical Transformer for CAD Sequence Inference from Point Clouds Elona Dupont K. Cherenkova Dimitrios Mallis Gleb Gusev Anis Kacem Djamila Aouada 3DPC 25 5 0 17 Jul 2024
LTSim: Layout Transportation-based Similarity Measure for Evaluating Layout Generation Mayu Otani Naoto Inoue Kotaro Kikuchi Riku Togashi 3DV 34 4 0 17 Jul 2024
COHO: Context-Sensitive City-Scale Hierarchical Urban Layout Generation Liu He Daniel G. Aliaga AI4TS 47 8 0 16 Jul 2024
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity Santiago Pascual Chunghsin Yeh Ioannis Tsiamas Joan Serra DiffM VGen 39 13 0 15 Jul 2024
Mixed-View Panorama Synthesis using Geospatially Guided Diffusion Zhexiao Xiong Xin Xing Scott Workman Subash Khanal Nathan Jacobs DiffM MDE 54 1 0 12 Jul 2024
Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis Qi Sun Hang Zhou Wengang Zhou Li Li Houqiang Li 3DPC 3DV 38 6 0 07 Jul 2024
DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents Yilun Xu Gabriele Corso Tommi Jaakkola Arash Vahdat Karsten Kreis 29 12 0 03 Jul 2024
Towards a Scalable Reference-Free Evaluation of Generative Models Azim Ospanov Jingwei Zhang Mohammad Jalali Xuenan Cao Andrej Bogdanov Farzan Farnia EGVM 32 1 0 03 Jul 2024
Solving Motion Planning Tasks with a Scalable Generative Model Yihan Hu Siqi Chai Zhening Yang Jingyu Qian Kun Li Wenxin Shao Haichao Zhang Wei-ping Xu Qiang Liu 41 17 0 03 Jul 2024
Diffusion Models and Representation Learning: A Survey Michael Fuest Pingchuan Ma Ming Gui Johannes S. Fischer Vincent Tao Hu Bjorn Ommer DiffM 30 19 0 30 Jun 2024
Efficient World Models with Context-Aware Tokenization Vincent Micheli Eloi Alonso François Fleuret OffRL VLM 32 5 0 27 Jun 2024
Unified Auto-Encoding with Masked Diffusion Philippe Hansen-Estruch S. Vishwanath Amy Zhang Manan Tomar DiffM 55 1 0 25 Jun 2024
SpecMaskGIT: Masked Generative Modeling of Audio Spectrograms for Efficient Audio Synthesis and Beyond Marco Comunità Zhi-Wei Zhong Akira Takahashi Shiqi Yang Mengjie Zhao Koichi Saito Yukara Ikemiya Takashi Shibuya Shusuke Takahashi Yuki Mitsufuji 63 2 0 25 Jun 2024
Autoregressive Image Generation without Vector Quantization Tianhong Li Yonglong Tian He Li Mingyang Deng Kaiming He DiffM 45 171 0 17 Jun 2024
Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% Lei Zhu Fangyun Wei Yanye Lu Dong Chen VLM 41 33 0 17 Jun 2024
Generative Visual Instruction Tuning Jefferson Hernandez Ruben Villegas Vicente Ordonez VLM 30 3 0 17 Jun 2024
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models Qihao Liu Zhanpeng Zeng Ju He Qihang Yu Xiaohui Shen Liang-Chieh Chen 46 18 0 13 Jun 2024
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities Roman Bachmann Oğuzhan Fatih Kar David Mizrahi Ali Garjani Mingfei Gao David Griffiths Jiaming Hu Afshin Dehghan Amir Zamir MoE VLM MLLM 36 14 0 13 Jun 2024
OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation Junke Wang Yi-Xin Jiang Zehuan Yuan Binyue Peng Zuxuan Wu Yu-Gang Jiang ViT VGen 78 36 0 13 Jun 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 46 80 0 11 Jun 2024