All Papers

Title

Generating Diverse High-Fidelity Images with VQ-VAE-2

2 June 2019

Ali Razavi

Papers citing "Generating Diverse High-Fidelity Images with VQ-VAE-2"

50 / 1,155 papers shown

Title
GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation Zhengqiang Zhang Rongyuan Wu Lingchen Sun Lei Zhang 4 0 0 01 Sep 2025
WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration Kevin Putra Santoso Rizka Wakhidatus Sholikah Raden Venantius Hari Ginardi 44 0 0 28 Aug 2025
LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding Julian Ost Andrea Ramazzina Amogh Joshi Maximilian Bömer Mario Bijelic Felix Heide 3DV 20 0 0 26 Aug 2025
Generative AI in Map-Making: A Technical Exploration and Its Implications for Cartographers Claudio Affolter Sidi Wu Yizi Chen L. Hurni 4 0 0 26 Aug 2025
Robust Residual Finite Scalar Quantization for Neural Compression Xiaoxu Zhu MQ 56 0 0 20 Aug 2025
SATURN: Autoregressive Image Generation Guided by Scene Graphs Thanh-Nhan Vo Trong-Thuan Nguyen Tam V. Nguyen Minh-Triet Tran 28 0 0 20 Aug 2025
EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition Hugo Thimonier Antony Perzo Renaud Seguier 20 0 0 19 Aug 2025
Next Visual Granularity Generation Yikai Wang Zhouxia Wang Zhonghua Wu Qingyi Tao Kang Liao Chen Change Loy 44 0 0 18 Aug 2025
Representation Quantization for Collaborative Filtering Augmentation Yunze Luo Yinjie Jiang Gaode Chen Jingchi Wang S. Wang ... Jun Zhang Jian Liang Han Li Kun Gai Kaigui Bian 16 0 0 15 Aug 2025
Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models H. J. Lee Suhyung Choi Byoung-Tak Zhang Inwoo Hwang 16 0 0 14 Aug 2025
MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning Thanh-Dat Truong Christophe Bobda Nitin Agarwal Khoa Luu 28 1 0 13 Aug 2025
AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning Shihao Yuan Yahui Liu Yang Yue Jingyuan Zhang Wangmeng Zuo Qi Wang Fuzheng Zhang Guorui Zhou EGVM VLM 38 0 0 09 Aug 2025
Cross-Domain Image Synthesis: Generating H&E from Multiplex Biomarker Imaging Jillur Rahman Saurav M. Nasr Jacob M. Luber MedIm 28 0 0 05 Aug 2025
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo Qianli Ma Yaowei Zheng Zhelun Shi Zhongkai Zhao Bin Jia ... Y. Li Jiacheng Yang Yanghua Peng Zhi-Li Zhang Xin Liu MoE VLM 91 1 0 04 Aug 2025
VQ-DeepISC: Vector Quantized-Enabled Digital Semantic Communication with Channel Adaptive Image Transmission Jianqiao Chen Tingting Zhu Huishi Song Nan Ma Xiaodong Xu DiffM 22 0 0 01 Aug 2025
DiSC-Med: Diffusion-based Semantic Communications for Robust Medical Image Transmission Fupei Guo Hao Zheng Xiang Zhang Li Chen Yue Wang Songyang Zhang MedIm 32 0 0 31 Jul 2025
Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis Zhuokun Chen Jugang Fan Zhuowei Yu Bohan Zhuang Mingkui Tan DiffM 36 0 0 28 Jul 2025
KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation Shibang Liu Xuemei Xie G. Shi DiffM 41 0 0 26 Jul 2025
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey Jindong Li Yali Fu Jiahong Liu Linxiao Cao Wei Ji Menglin Yang Irwin King Ming-Hsuan Yang OffRL 46 0 0 21 Jul 2025
Quantizing Text-attributed Graphs for Semantic-Structural Integration Jianyuan Bo Hao Wu Yuan Fang 28 0 0 20 Jul 2025
MolPIF: A Parameter Interpolation Flow Model for Molecule Generation Yaowei Jin Junjie Wang Wenkai Xiang Duanhua Cao Dan Teng ... Chuanlong Zeng Duo An Mingyue Zheng Shuangjia Zheng Qian Shi AI4CE 112 0 0 18 Jul 2025
$$I^{2}$-World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting$ $I^{2}$ -World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting Zhimin Liao Ping Wei Ruijie Zhang Shuaijia Chen Haoxuan Wang Ziyang Ren VGen 65 1 0 12 Jul 2025
Tractable Representation Learning with Probabilistic Circuits Steven Braun Sahil Sidheekh Antonio Vergari Martin Mundt S. Natarajan Kristian Kersting TPM 77 0 0 06 Jul 2025
DepthART: Monocular Depth Estimation as Autoregressive Refinement Task Bulat Gabdullin Nina Konovalova Nikolay Patakin Dmitry Senushkin Anton Konushin MDE 136 1 0 01 Jul 2025
Watermarking Autoregressive Image Generation Nikola Jovanović Ismail Labiad Tomáš Souček Martin Vechev Pierre Fernandez WIGM 92 0 0 19 Jun 2025
Enhancing Vector Quantization with Distributional Matching: A Theoretical and Empirical Study Xianghong Fang Litao Guo Hengchao Chen Yuxuan Zhang XiaofanXia ... Yexin Liu Hao Wang Harry Yang Yuan Yuan Qiang Sun MQ 84 1 0 18 Jun 2025
Discrete JEPA: Learning Discrete Token Representations without Reconstruction Junyeob Baek Hosung Lee Christopher Hoang Mengye Ren Sungjin Ahn 87 0 0 17 Jun 2025
ViSAGe: Video-to-Spatial Audio Generation Jaeyeon Kim Heeseung Yun Gunhee Kim VGen 101 6 0 13 Jun 2025
Dynamic Sparse Training of Diagonally Sparse Networks Abhishek Tyagi Arjun Iyer William H Renninger Christopher Kanan Yuhao Zhu 66 0 0 13 Jun 2025
SpectralAR: Spectral Autoregressive Visual Generation Yuanhui Huang Weiliang Chen Wenzhao Zheng Yueqi Duan Jie Zhou Jiwen Lu DiffM VGen 168 1 0 12 Jun 2025
DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning Dongxu Liu Yuang Peng Haomiao Tang Yuwei Chen Chunrui Han Zheng Ge Daxin Jiang Mingxue Liao DiffM 150 0 0 11 Jun 2025
VIVAT: Virtuous Improving VAE Training through Artifact Mitigation Lev Novitskiy Viacheslav Vasilev Maria Kovaleva V. Arkhipkin Denis Dimitrov VGen 52 0 0 09 Jun 2025
Highly Compressed Tokenizer Can Generate Without Training Lukas Lao Beyer T. Li X. Chen S. Karaman K. He DiffM VLM 65 0 0 09 Jun 2025
GGBall: Graph Generative Model on Poincaré Ball Tianci Bu Chuanrui Wang Hao Ma Haoren Zheng Xin Lu Tailin Wu 86 0 0 08 Jun 2025
LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer Ying Shen Zhiyang Xu Jiuhai Chen Shizhe Diao Jiaxin Zhang Yuguang Yao Joy Rimchala Ismini Lourentzou Lifu Huang OffRL 92 0 0 08 Jun 2025
Continuous Semi-Implicit Models L. Yu Jiajun Zha Tong Yang Tianyu Xie Xiangyu Zhang S.-H. Gary Chan Cheng Zhang DiffM 67 0 0 07 Jun 2025
HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation Hermann Kumbong Xian Liu Tsung-Yi Lin Ming-Yu Liu Xihui Liu Ziwei Liu Daniel Y. Fu Christopher Ré David W. Romero DiffM 104 2 0 04 Jun 2025
Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 112 0 0 02 Jun 2025
TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation Amin Karimi Monsefi Mridul Khurana R. Ramnath Anuj Karpatne Wei-Lun Chao Cheng Zhang 133 1 0 02 Jun 2025
Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues Youngmin Kim Jiwan Chung Jisoo Kim Sunghyun Lee Sangkyu Lee Junhyeok Kim Cheoljong Yang Youngjae Yu VGen 68 0 0 01 Jun 2025
On Designing Diffusion Autoencoders for Efficient Generation and Representation Learning Magdalena Proszewska Nikolay Malkin N. Siddharth DiffM 100 0 0 30 May 2025
SwitchCodec: A High-Fidelity Nerual Audio Codec With Sparse Quantization Jin Wang Wenbin Jiang Xiangbo Wang Yubo You Sheng Fang 119 0 0 30 May 2025
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects Huaijin Pi Zhi Cen Zhiyang Dou Taku Komura DiffM 112 1 0 27 May 2025
DiSA: Diffusion Step Annealing in Autoregressive Image Generation Qinyu Zhao Jaskirat Singh Ming Xu Akshay Asthana Stephen Gould Liang Zheng DiffM 115 0 0 26 May 2025
LlamaSeg: Image Segmentation via Autoregressive Mask Generation Jiru Deng Tengjin Weng Tianyu Yang Tong Lu Zhiheng Li Wenhao Jiang VLM 206 0 0 26 May 2025
Plug-and-Play Context Feature Reuse for Efficient Masked Generation Xuejie Liu Anji Liu Karen Ullrich Yitao Liang 118 0 0 25 May 2025
Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning Nicolas Castanet Olivier Sigaud Sylvain Lamprier OffRL 174 0 0 23 May 2025
Neighbour-Driven Gaussian Process Variational Autoencoders for Scalable Structured Latent Modelling Xinxing Shi Xiaoyu Jiang Mauricio A. Álvarez BDL 170 0 0 22 May 2025
FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design Renjie Wei Songqiang Xu Qingyu Guo Meng Li MQ 127 0 0 22 May 2025
MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention Chaoyi Jiang Sungwoo Kim Lei Gao Hossein Entezari Zarch Won Woo Ro Murali Annavaram 88 0 0 22 May 2025

Generating Diverse High-Fidelity Images with VQ-VAE-2

2 June 2019

Ali Razavi

Papers citing "Generating Diverse High-Fidelity Images with VQ-VAE-2"

50 / 1,155 papers shown

Title
GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation Zhengqiang Zhang Rongyuan Wu Lingchen Sun Lei Zhang 4 0 0 01 Sep 2025
WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration Kevin Putra Santoso Rizka Wakhidatus Sholikah Raden Venantius Hari Ginardi 44 0 0 28 Aug 2025
LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding Julian Ost Andrea Ramazzina Amogh Joshi Maximilian Bömer Mario Bijelic Felix Heide 3DV 20 0 0 26 Aug 2025
Generative AI in Map-Making: A Technical Exploration and Its Implications for Cartographers Claudio Affolter Sidi Wu Yizi Chen L. Hurni 4 0 0 26 Aug 2025
Robust Residual Finite Scalar Quantization for Neural Compression Xiaoxu Zhu MQ 56 0 0 20 Aug 2025
SATURN: Autoregressive Image Generation Guided by Scene Graphs Thanh-Nhan Vo Trong-Thuan Nguyen Tam V. Nguyen Minh-Triet Tran 28 0 0 20 Aug 2025
EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition Hugo Thimonier Antony Perzo Renaud Seguier 20 0 0 19 Aug 2025
Next Visual Granularity Generation Yikai Wang Zhouxia Wang Zhonghua Wu Qingyi Tao Kang Liao Chen Change Loy 44 0 0 18 Aug 2025
Representation Quantization for Collaborative Filtering Augmentation Yunze Luo Yinjie Jiang Gaode Chen Jingchi Wang S. Wang ... Jun Zhang Jian Liang Han Li Kun Gai Kaigui Bian 16 0 0 15 Aug 2025
Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models H. J. Lee Suhyung Choi Byoung-Tak Zhang Inwoo Hwang 16 0 0 14 Aug 2025
MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning Thanh-Dat Truong Christophe Bobda Nitin Agarwal Khoa Luu 28 1 0 13 Aug 2025
AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning Shihao Yuan Yahui Liu Yang Yue Jingyuan Zhang Wangmeng Zuo Qi Wang Fuzheng Zhang Guorui Zhou EGVM VLM 38 0 0 09 Aug 2025
Cross-Domain Image Synthesis: Generating H&E from Multiplex Biomarker Imaging Jillur Rahman Saurav M. Nasr Jacob M. Luber MedIm 28 0 0 05 Aug 2025
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo Qianli Ma Yaowei Zheng Zhelun Shi Zhongkai Zhao Bin Jia ... Y. Li Jiacheng Yang Yanghua Peng Zhi-Li Zhang Xin Liu MoE VLM 91 1 0 04 Aug 2025
VQ-DeepISC: Vector Quantized-Enabled Digital Semantic Communication with Channel Adaptive Image Transmission Jianqiao Chen Tingting Zhu Huishi Song Nan Ma Xiaodong Xu DiffM 22 0 0 01 Aug 2025
DiSC-Med: Diffusion-based Semantic Communications for Robust Medical Image Transmission Fupei Guo Hao Zheng Xiang Zhang Li Chen Yue Wang Songyang Zhang MedIm 32 0 0 31 Jul 2025
Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis Zhuokun Chen Jugang Fan Zhuowei Yu Bohan Zhuang Mingkui Tan DiffM 36 0 0 28 Jul 2025
KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation Shibang Liu Xuemei Xie G. Shi DiffM 41 0 0 26 Jul 2025
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey Jindong Li Yali Fu Jiahong Liu Linxiao Cao Wei Ji Menglin Yang Irwin King Ming-Hsuan Yang OffRL 46 0 0 21 Jul 2025
Quantizing Text-attributed Graphs for Semantic-Structural Integration Jianyuan Bo Hao Wu Yuan Fang 28 0 0 20 Jul 2025
MolPIF: A Parameter Interpolation Flow Model for Molecule Generation Yaowei Jin Junjie Wang Wenkai Xiang Duanhua Cao Dan Teng ... Chuanlong Zeng Duo An Mingyue Zheng Shuangjia Zheng Qian Shi AI4CE 112 0 0 18 Jul 2025
$$I^{2}$-World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting$ $I^{2}$ -World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting Zhimin Liao Ping Wei Ruijie Zhang Shuaijia Chen Haoxuan Wang Ziyang Ren VGen 65 1 0 12 Jul 2025
Tractable Representation Learning with Probabilistic Circuits Steven Braun Sahil Sidheekh Antonio Vergari Martin Mundt S. Natarajan Kristian Kersting TPM 77 0 0 06 Jul 2025
DepthART: Monocular Depth Estimation as Autoregressive Refinement Task Bulat Gabdullin Nina Konovalova Nikolay Patakin Dmitry Senushkin Anton Konushin MDE 136 1 0 01 Jul 2025
Watermarking Autoregressive Image Generation Nikola Jovanović Ismail Labiad Tomáš Souček Martin Vechev Pierre Fernandez WIGM 92 0 0 19 Jun 2025
Enhancing Vector Quantization with Distributional Matching: A Theoretical and Empirical Study Xianghong Fang Litao Guo Hengchao Chen Yuxuan Zhang XiaofanXia ... Yexin Liu Hao Wang Harry Yang Yuan Yuan Qiang Sun MQ 84 1 0 18 Jun 2025
Discrete JEPA: Learning Discrete Token Representations without Reconstruction Junyeob Baek Hosung Lee Christopher Hoang Mengye Ren Sungjin Ahn 87 0 0 17 Jun 2025
ViSAGe: Video-to-Spatial Audio Generation Jaeyeon Kim Heeseung Yun Gunhee Kim VGen 101 6 0 13 Jun 2025
Dynamic Sparse Training of Diagonally Sparse Networks Abhishek Tyagi Arjun Iyer William H Renninger Christopher Kanan Yuhao Zhu 66 0 0 13 Jun 2025
SpectralAR: Spectral Autoregressive Visual Generation Yuanhui Huang Weiliang Chen Wenzhao Zheng Yueqi Duan Jie Zhou Jiwen Lu DiffM VGen 168 1 0 12 Jun 2025
DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning Dongxu Liu Yuang Peng Haomiao Tang Yuwei Chen Chunrui Han Zheng Ge Daxin Jiang Mingxue Liao DiffM 150 0 0 11 Jun 2025
VIVAT: Virtuous Improving VAE Training through Artifact Mitigation Lev Novitskiy Viacheslav Vasilev Maria Kovaleva V. Arkhipkin Denis Dimitrov VGen 52 0 0 09 Jun 2025
Highly Compressed Tokenizer Can Generate Without Training Lukas Lao Beyer T. Li X. Chen S. Karaman K. He DiffM VLM 65 0 0 09 Jun 2025
GGBall: Graph Generative Model on Poincaré Ball Tianci Bu Chuanrui Wang Hao Ma Haoren Zheng Xin Lu Tailin Wu 86 0 0 08 Jun 2025
LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer Ying Shen Zhiyang Xu Jiuhai Chen Shizhe Diao Jiaxin Zhang Yuguang Yao Joy Rimchala Ismini Lourentzou Lifu Huang OffRL 92 0 0 08 Jun 2025
Continuous Semi-Implicit Models L. Yu Jiajun Zha Tong Yang Tianyu Xie Xiangyu Zhang S.-H. Gary Chan Cheng Zhang DiffM 67 0 0 07 Jun 2025
HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation Hermann Kumbong Xian Liu Tsung-Yi Lin Ming-Yu Liu Xihui Liu Ziwei Liu Daniel Y. Fu Christopher Ré David W. Romero DiffM 104 2 0 04 Jun 2025
Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 112 0 0 02 Jun 2025
TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation Amin Karimi Monsefi Mridul Khurana R. Ramnath Anuj Karpatne Wei-Lun Chao Cheng Zhang 133 1 0 02 Jun 2025
Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues Youngmin Kim Jiwan Chung Jisoo Kim Sunghyun Lee Sangkyu Lee Junhyeok Kim Cheoljong Yang Youngjae Yu VGen 68 0 0 01 Jun 2025
On Designing Diffusion Autoencoders for Efficient Generation and Representation Learning Magdalena Proszewska Nikolay Malkin N. Siddharth DiffM 100 0 0 30 May 2025
SwitchCodec: A High-Fidelity Nerual Audio Codec With Sparse Quantization Jin Wang Wenbin Jiang Xiangbo Wang Yubo You Sheng Fang 119 0 0 30 May 2025
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects Huaijin Pi Zhi Cen Zhiyang Dou Taku Komura DiffM 112 1 0 27 May 2025
DiSA: Diffusion Step Annealing in Autoregressive Image Generation Qinyu Zhao Jaskirat Singh Ming Xu Akshay Asthana Stephen Gould Liang Zheng DiffM 115 0 0 26 May 2025
LlamaSeg: Image Segmentation via Autoregressive Mask Generation Jiru Deng Tengjin Weng Tianyu Yang Tong Lu Zhiheng Li Wenhao Jiang VLM 206 0 0 26 May 2025
Plug-and-Play Context Feature Reuse for Efficient Masked Generation Xuejie Liu Anji Liu Karen Ullrich Yitao Liang 118 0 0 25 May 2025
Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning Nicolas Castanet Olivier Sigaud Sylvain Lamprier OffRL 174 0 0 23 May 2025
Neighbour-Driven Gaussian Process Variational Autoencoders for Scalable Structured Latent Modelling Xinxing Shi Xiaoyu Jiang Mauricio A. Álvarez BDL 170 0 0 22 May 2025
FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design Renjie Wei Songqiang Xu Qingyu Guo Meng Li MQ 127 0 0 22 May 2025
MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention Chaoyi Jiang Sungwoo Kim Lei Gao Hossein Entezari Zarch Won Woo Ro Murali Annavaram 88 0 0 22 May 2025