Restructuring Vector Quantization with the Rotation Trick

8 October 2024

Papers citing "Restructuring Vector Quantization with the Rotation Trick"

50 / 53 papers shown

Title
Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech Nam-Gyu Kim Deok-Hyeon Cho Seung-Bin Kim Seong-Whan Lee 9 0 0 27 May 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 43 0 0 11 Apr 2025
CHIME: A Compressive Framework for Holistic Interest Modeling Yong Bai Rui Xiang Kaiyuan Li Yongxiang Tang Yanhua Cheng Xialong Liu Peng Jiang Kun Gai 38 1 0 09 Apr 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 54 0 0 22 Mar 2025
QINCODEC: Neural Audio Compression with Implicit Neural Codebooks Zineb Lahrichi Gaëtan Hadjeres Gaël Richard Geoffroy Peeters 69 0 0 19 Mar 2025
Cube: A Roblox View of 3D Intelligence Foundation AI Team Roblox Kiran Bhat Nishchaie Khanna Karun Channa Tinghui Zhou ... Kyle Price Steve Han Yiqing Wang A. Singh David Baszucki 77 0 0 19 Mar 2025
Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization Kyle Sargent Kyle Hsu Justin Johnson L. Fei-Fei Jiajun Wu DiffM MU 85 6 0 14 Mar 2025
Remote Inference over Dynamic Links via Adaptive Rate Deep Task-Oriented Vector Quantization Eyal Fishel M. Malka Shai Ginzach Nir Shlezinger 69 0 0 07 Jan 2025
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer Hong Chen Zihan Wang Xianrui Li Xingwu Sun Fangyi Chen Jiang Liu Jiadong Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 136 8 0 14 Dec 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 70 3 0 29 Oct 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Junlin Wu Wanli Ouyang Ruimao Zhang EGVM VGen 149 413 0 23 Oct 2024
Balance of Number of Embedding and their Dimensions in Vector Quantization Hang Chen Sankepally Sainath Reddy Ziwei Chen Dianbo Liu 54 1 0 06 Jul 2024
Image and Video Tokenization with Binary Spherical Quantization Yue Zhao Yuanjun Xiong Philipp Krahenbuhl 52 20 0 11 Jun 2024
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space Nabarun Goswami Yusuke Mukuta Tatsuya Harada 61 4 0 18 Mar 2024
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation Lijun Yu José Lezama N. B. Gundavarapu Luca Versari Kihyuk Sohn ... Boqing Gong Ming-Hsuan Yang Irfan Essa David A. Ross Lu Jiang 65 297 0 09 Oct 2023
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization Tanmay Gautam Reid Pryzant Ziyi Yang Chenguang Zhu Somayeh Sojoudi MQ 33 4 0 04 Oct 2023
Finite Scalar Quantization: VQ-VAE Made Simple Fabian Mentzer David C. Minnen E. Agustsson Michael Tschannen 59 164 0 27 Sep 2023
Online Clustered Codebook Chuanxia Zheng Andrea Vedaldi 42 27 0 27 Jul 2023
Designing a Better Asymmetric VQGAN for StableDiffusion Zixin Zhu Xuelu Feng DongDong Chen Jianmin Bao Le Wang Yinpeng Chen Lu Yuan Gang Hua DiffM 64 35 0 07 Jun 2023
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization Mengqi Huang Zhendong Mao Zhuowei Chen Yongdong Zhang MQ 87 39 0 19 May 2023
Straightening Out the Straight-Through Estimator: Overcoming Optimization Challenges in Vector Quantized Networks Minyoung Huh Brian Cheung Pulkit Agrawal Phillip Isola MQ 36 49 0 15 May 2023
Regularized Vector Quantization for Tokenized Image Synthesis Jiahui Zhang Fangneng Zhan Christian Theobalt Shijian Lu DiffM MQ 53 30 0 11 Mar 2023
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes Alexander Kolesnikov André Susano Pinto Lucas Beyer Xiaohua Zhai Jeremiah Harmsen N. Houlsby 108 68 0 20 May 2022
SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization Yuhta Takida Takashi Shibuya Wei-Hsiang Liao Chieh-Hsin Lai Junki Ohmura Toshimitsu Uesaka Naoki Murata Shusuke Takahashi Toshiyuki Kumakura Yuki Mitsufuji BDL 38 62 0 16 May 2022
Autoregressive Image Generation using Residual Quantization Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han VGen 207 343 0 03 Mar 2022
MaskGIT: Masked Generative Image Transformer Huiwen Chang Han Zhang Lu Jiang Ce Liu William T. Freeman ViT 72 656 0 08 Feb 2022
Self-supervised Learning with Random-projection Quantizer for Speech Recognition Chung-Cheng Chiu James Qin Yu Zhang Jiahui Yu Yonghui Wu SSL 47 167 0 03 Feb 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 194 15,081 0 20 Dec 2021
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo ViT 67 241 0 24 Nov 2021
Vector-quantized Image Modeling with Improved VQGAN Jiahui Yu Xin Li Jing Yu Koh Han Zhang Ruoming Pang James Qin Alexander Ku Yuanzhong Xu Jason Baldridge Yonghui Wu ViT VLM DRL 67 500 0 09 Oct 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 271 493 0 20 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 303 2,016 0 09 Feb 2021
Taming Transformers for High-Resolution Image Synthesis Patrick Esser Robin Rombach Bjorn Ommer ViT 88 2,890 0 17 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 159 40,217 0 22 Oct 2020
Robust Training of Vector Quantized Bottleneck Models A. Lancucki J. Chorowski Guillaume Sanchez R. Marxer Nanxin Chen Hans J. G. A. Dolfing Sameer Khurana Tanel Alumäe Antoine Laurent 43 58 0 18 May 2020
Jukebox: A Generative Model for Music Prafulla Dhariwal Heewoo Jun Christine Payne Jong Wook Kim Alec Radford Ilya Sutskever VLM 80 731 0 30 Apr 2020
Decision-Making with Auto-Encoding Variational Bayes Romain Lopez Pierre Boyeau Nir Yosef Michael I. Jordan Jeffrey Regier BDL 119 10,591 0 17 Feb 2020
vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations Alexei Baevski Steffen Schneider Michael Auli SSL 66 662 0 12 Oct 2019
A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras S. Laine Timo Aila 477 10,466 0 12 Dec 2018
Towards Accurate Generative Models of Video: A New Metric & Challenges Thomas Unterthiner Sjoerd van Steenkiste Karol Kurach Raphaël Marinier Marcin Michalski Sylvain Gelly EGVM VGen 45 711 0 03 Dec 2018
GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks Zhao Chen Vijay Badrinarayanan Chen-Yu Lee Andrew Rabinovich ODL 85 1,272 0 07 Nov 2017
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 139 4,928 0 02 Nov 2017
Progressive Growing of GANs for Improved Quality, Stability, and Variation Tero Karras Timo Aila S. Laine J. Lehtinen GAN 93 7,318 0 27 Oct 2017
Self-Supervised Visual Planning with Temporal Skip Connections F. Ebert Chelsea Finn Alex X. Lee Sergey Levine SSL 55 318 0 15 Oct 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 304 129,831 0 12 Jun 2017
Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics Alex Kendall Y. Gal R. Cipolla 3DH 171 3,093 0 19 May 2017
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 261 19,560 0 21 Nov 2016
Categorical Reparameterization with Gumbel-Softmax Eric Jang S. Gu Ben Poole BDL 191 5,323 0 03 Nov 2016
Improved Techniques for Training GANs Tim Salimans Ian Goodfellow Wojciech Zaremba Vicki Cheung Alec Radford Xi Chen GAN 321 8,999 0 10 Jun 2016
Perceptual Losses for Real-Time Style Transfer and Super-Resolution Justin Johnson Alexandre Alahi Li Fei-Fei SupR 153 10,202 0 27 Mar 2016