Generating Diverse High-Fidelity Images with VQ-VAE-2

2 June 2019

Ali Razavi

Papers citing "Generating Diverse High-Fidelity Images with VQ-VAE-2"

50 / 1,155 papers shown

Title
MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning Jinhua Zhang Wei Long Minghao Han Weiyi You Shuhang Gu BDL 115 0 0 19 May 2025
Context-Aware Autoregressive Models for Multi-Conditional Image Generation Yixiao Chen Zhiyuan Ma Guoli Jia Che Jiang Jianjun Li Bowen Zhou DiffM 106 1 0 18 May 2025
MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation Gabriel Maldonado Armin Danesh Pazho Ghazal Alinezhad Noghre Vinit Katariya Hamed Tabkhi CLIP VGen 151 0 0 16 May 2025
An Introduction to Discrete Variational Autoencoders Alan Jeffares Liyuan Liu DRL BDL CML 91 0 0 15 May 2025
Text-driven Motion Generation: Overview, Challenges and Directions Ali Rida Sahili Najett Neji Hedi Tabia VGen 109 1 0 14 May 2025
Continuous Visual Autoregressive Generation via Score Maximization Chenze Shao Fandong Meng Jie Zhou DiffM 90 2 0 12 May 2025
H $^3$ DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning Yiyang Lu Yufeng Tian Zhecheng Yuan Xinyu Wang Pu Hua Zhengrong Xue Huazhe Xu 197 1 0 12 May 2025
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Qingfu Zhang Zhenan Sun Ying Shan MLLM VLM 218 13 0 08 May 2025
Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models Mikhail Chaichuk Sushant Gautam Steven A. Hicks Elena Tutubalina DiffM MedIm 182 2 0 08 May 2025
ELGAR: Expressive Cello Performance Motion Generation for Audio Rendition Zhiping Qiu Yitong Jin Yijiao Wang Yi Shi Changbo Wang Chao Tan Xiaobing Li Feng Yu Tao Yu Qionghai Dai 109 0 0 07 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan ... Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 469 6 0 05 May 2025
DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction Yiqun Lin Hualiang Wang Jixiang Chen Jiewen Yang Jiarong Guo Xuelong Li 429 2 0 05 May 2025
AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images Yunhao Li Sijing Wu Wei Sun Zhichao Zhang Yucheng Zhu Zicheng Zhang Huiyu Duan Xiongkuo Min Guangtao Zhai EGVM 190 3 0 30 Apr 2025
CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation Jianyu Wu Yizhou Wang Xiangyu Yue Xinzhu Ma Jinpei Guo Dongzhan Zhou Wanli Ouyang Shixiang Tang 201 1 0 29 Apr 2025
EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation Zhe Dong Yuzhe Sun Tianzhu Liu Wangmeng Zuo Yanfeng Gu 146 0 0 28 Apr 2025
Flow Along the K-Amplitude for Generative Modeling Weitao Du Shuning Chang Jiasheng Tang Yu Rong F. Wang Shengchao Liu 117 0 0 27 Apr 2025
DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks Yinqi Li Hong Chang Ruibing Hou Shiguang Shan Xilin Chen DiffM 133 0 0 24 Apr 2025
Fast Autoregressive Models for Continuous Latent Generation Tiankai Hang Jianmin Bao Fangyun Wei Dong Chen DiffM 147 2 0 24 Apr 2025
Distilling semantically aware orders for autoregressive image generation Rishav Pramanik Antoine Poupon Juan A. Rodriguez Masih Aminbeidokhti David Vazquez Christopher Pal Zhaozheng Yin M. Pedersoli 127 0 0 23 Apr 2025
OccuEMBED: Occupancy Extraction Merged with Building Energy Disaggregation for Occupant-Responsive Operation at Scale Yufei Zhang Andrew Sonta 69 0 0 23 Apr 2025
POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image Generation Evans Xu Han Alice Qian Zhang Hong Shen Haiyi Zhu Paul Pu Liang Jane Hsieh 145 0 0 18 Apr 2025
Image Editing with Diffusion Models: A Survey Jia Wang Jie Hu Xiaoqi Ma Hanghang Ma Xiaoming Wei Enhua Wu 187 1 0 17 Apr 2025
Hierarchical Vector Quantized Graph Autoencoder with Annealing-Based Code Selection Long Zeng Jianxiang Yu Jiapeng Zhu Qingsong Zhong Xiang Li 102 3 0 17 Apr 2025
Wavelet-based Variational Autoencoders for High-Resolution Image Generation Andrew Kiruluta DiffM 105 0 0 16 Apr 2025
Autoregressive Distillation of Diffusion Transformers Yeongmin Kim Sotiris Anagnostidis Yuming Du Edgar Schönfeld Jonas Kohler Markos Georgopoulos Albert Pumarola Ali K. Thabet A. Sanakoyeu 126 1 0 15 Apr 2025
Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing Taihang Hu Linxuan Li Kai Wang Yaxing Wang Jian Yang Ming-Ming Cheng DiffM VGen 138 0 0 14 Apr 2025
MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer Yilin Wang Chuan Guo Yuxuan Mu Muhammad Gohar Javed Wei Ji Juwei Lu Hai Jiang Li Cheng VGen 88 1 0 11 Apr 2025
Vector Quantized-Elites: Unsupervised and Problem-Agnostic Quality-Diversity Optimization Constantinos Tsakonas Konstantinos Chatzilygeroudis 104 0 0 10 Apr 2025
LoRAX: LoRA eXpandable Networks for Continual Synthetic Image Attribution Danielle Sullivan-Pao Nicole Tian Pooya Khorrami CLL 117 1 0 10 Apr 2025
Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation Jiwoo Chung Sangeek Hyun Hyunjun Kim Eunseo Koh MinKyu Lee Jae-Pil Heo 124 5 0 03 Apr 2025
Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision Xiaofeng Han Shunpeng Chen Zenghuang Fu Zhe Feng Lue Fan ... Li Guo Weiliang Meng Xiaopeng Zhang Rongtao Xu Shibiao Xu 179 18 0 03 Apr 2025
Explainable and Interpretable Forecasts on Non-Smooth Multivariate Time Series for Responsible Gameplay Hussain Jagirdar Rukma Talwadker Aditya Pareek Pulkit Agrawal Tridib Mukherjee AI4TS 232 2 0 03 Apr 2025
MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation Zhaoyu Chen Hualiang Wang Chubin Ou Xiaomeng Li 105 1 0 02 Apr 2025
A Theory of Machine Understanding via the Minimum Description Length Principle Canlin Zhang Xiuwen Liu 173 0 0 01 Apr 2025
Style Quantization for Data-Efficient GAN Training Jian Wang Xin Lan Jizhe Zhou Yuxin Tian Jiancheng Lv 117 0 0 31 Mar 2025
ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion Rana Muhammad Shahroz Khan Dongwen Tang Pingzhi Li Xiaojiang Peng Tianlong Chen AI4CE 644 1 0 31 Mar 2025
HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation Hongwei Zheng Han Li Wenrui Dai Ziyang Zheng Chenglin Li Junni Zou Hongkai Xiong 3DH 120 3 0 30 Mar 2025
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning Hang Guo Yawei Li Taolin Zhang Jiadong Wang Tao Dai Shu-Tao Xia Luca Benini 225 5 0 30 Mar 2025
SocialGen: Modeling Multi-Human Social Interaction with Language Models Heng Yu Juze Zhang Changan Chen Tiange Xiang Yusu Fang Juan Carlos Niebles Ehsan Adeli VGen 140 2 0 28 Mar 2025
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis Jike Zhong Qilong Wu Xinyue Li Bo Zhang Ming Li ... Haoyang Li Botian Shi Peng Gao Bin Fu Zhen Li EGVM 122 1 0 27 Mar 2025
Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data Masoumeh Sharafi Emma Ollivier Muhammad Osama Zeeshan Soufiane Belharbi M. Pedersoli A. L. Koerich Simon L Bacon EricGranger 152 4 0 26 Mar 2025
Scaling Down Text Encoders of Text-to-Image Diffusion Models Lifu Wang Daqing Liu Xinchen Liu Xiaodong He VLM 167 0 0 25 Mar 2025
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP Wencheng Zhu Yuexin Wang Hongxuan Li Pengfei Zhu Q. Hu CLIP 178 0 0 24 Mar 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 136 2 0 22 Mar 2025
Zero-Shot Styled Text Image Generation, but Make It Autoregressive Vittorio Pippi Fabio Quattrini S. Cascianelli Alessio Tonioni Rita Cucchiara 128 3 0 21 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 156 0 0 21 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 146 6 0 21 Mar 2025
Position: Interactive Generative Video as Next-Generation Game Engine Jiwen Yu Yiran Qin Haoxuan Che Quande Liu Xintao Wang Pengfei Wan Di Zhang Xihui Liu VGen 171 4 0 21 Mar 2025
Tokenize Image as a Set Zigang Geng Mengde Xu Han Hu Shuyang Gu DiffM 121 0 0 20 Mar 2025
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation Yanjie Wang Zhijie Lin Yao Teng Yuanzhi Zhu Shuhuai Ren Jiashi Feng Xihui Liu 162 11 0 20 Mar 2025