v1v2 (latest)

Neural Discrete Representation Learning

2 November 2017

Papers citing "Neural Discrete Representation Learning"

50 / 3,267 papers shown

Title
Efficient Online Inference of Vision Transformers by Training-Free Tokenization Leonidas Gee Wing Yan Li V. Sharmanska Novi Quadrianto ViT 210 0 0 01 Jul 2025
USP: Unified Self-Supervised Pretraining for Image Generation and Understanding Xiangxiang Chu Renda Li Yong Wang 257 1 0 01 Jul 2025
HumanGif: Single-View Human Diffusion with Generative Prior Shoukang Hu Takuya Narihira Kazumi Fukuda Ryosuke Sawata Takashi Shibuya Yuki Mitsufuji 215 2 0 01 Jul 2025
DepthART: Monocular Depth Estimation as Autoregressive Refinement Task Bulat Gabdullin Nina Konovalova Nikolay Patakin Dmitry Senushkin Anton Konushin MDE 86 1 0 01 Jul 2025
FreeCodec: A disentangled neural speech codec with fewer tokens Youqiang Zheng Weiping Tu Yueteng Kang Jie Chen Yike Zhang Li Xiao Yuhong Yang Long Ma 145 4 0 01 Jul 2025
Deep generative models as the probability transformation functions Vitalii Bondar Vira Babenko Roman Trembovetskyi Yurii Korobeinyk Viktoriya Dzyuba 34 0 0 20 Jun 2025
Visual-Instructed Degradation Diffusion for All-in-One Image Restoration Wenyang Luo Haina Qin Zewen Chen L. xilinx Wang Dandan Zheng Yuming Li Yufan Liu B. Li Weiming Hu 31 0 0 20 Jun 2025
Watermarking Autoregressive Image Generation Nikola Jovanović Ismail Labiad Tomáš Souček Martin Vechev Pierre Fernandez WIGM 45 0 0 19 Jun 2025
Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization Cong Wang Zexuan Deng Zhiwei Jiang Fei Shen Yafeng Yin Shiwei Gan Zifeng Cheng Shiping Ge Qing Gu DiffM SLR VGen 50 0 0 19 Jun 2025
CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations Puchun Liu Cheng Chen Yubin He Tong Zhang 15 0 0 19 Jun 2025
Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ Yunkee Chae Kyogu Lee 30 0 0 19 Jun 2025
Privacy-Preserving Chest X-ray Classification in Latent Space with Homomorphically Encrypted Neural Inference Jonghun Kim Gyeongdeok Jo Shinyoung Ra Hyunjin Park 37 0 0 18 Jun 2025
HOIDiNi: Human-Object Interaction through Diffusion Noise Optimization Roey Ron Guy Tevet Haim Sawdayee Amit H. Bermano DiffM 40 0 0 18 Jun 2025
Enhancing Vector Quantization with Distributional Matching: A Theoretical and Empirical Study Xianghong Fang Litao Guo Hengchao Chen Yuxuan Zhang XiaofanXia ... Yexin Liu Hao Wang Harry Yang Yuan Yuan Qiang Sun MQ 34 0 0 18 Jun 2025
Discrete JEPA: Learning Discrete Token Representations without Reconstruction Junyeob Baek Hosung Lee Christopher Hoang Mengye Ren Sungjin Ahn 29 0 0 17 Jun 2025
Discrete Diffusion in Large Language and Multimodal Models: A Survey Runpeng Yu Qi Li Xinchao Wang DiffM AI4CE 53 0 0 16 Jun 2025
DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration Yan Chen Hanlin Shang Ce Liu Yuxuan Chen Hui Li Weihao Yuan Hao Zhu Zilong Dong Siyu Zhu 29 0 0 16 Jun 2025
Hierarchical Group-wise Ranking Framework for Recommendation Models Yachen Yan Liubo Li Ravi Choudhary 23 0 0 15 Jun 2025
RL from Physical Feedback: Aligning Large Motion Models with Humanoid Control Junpeng Yue Zepeng Wang Yuxuan Wang Weishuai Zeng Jiangxing Wang Xinrun Xu Yu Zhang Sipeng Zheng Ziluo Ding Zongqing Lu AI4CE 25 0 0 15 Jun 2025
Efficient Multi-Camera Tokenization with Triplanes for End-to-End Driving Boris Ivanovic Cristiano Saltori Yurong You Yan Wang Wenjie Luo Marco Pavone 26 0 0 13 Jun 2025
Dynamic Sparse Training of Diagonally Sparse Networks Abhishek Tyagi Arjun Iyer William H Renninger Christopher Kanan Yuhao Zhu 17 0 0 13 Jun 2025
Exploring the Effectiveness of Deep Features from Domain-Specific Foundation Models in Retinal Image Synthesis Zuzanna Skorniewska Bartlomiej W. Papiez MedIm 27 0 0 13 Jun 2025
DanceChat: Large Language Model-Guided Music-to-Dance Generation Qing Wang Xiaohang Yang Yilan Dong Naveen Raj Govindaraj Gregory Slabaugh Shanxin Yuan 129 0 0 12 Jun 2025
Unsupervised Deformable Image Registration with Structural Nonparametric Smoothing Hang Zhang Xiang Chen Renjiu Hu Rongguang Wang Jinwei Zhang Min Liu Yaonan Wang Gaolei Li Xinxing Cheng Jinming Duan 129 0 0 12 Jun 2025
SpectralAR: Spectral Autoregressive Visual Generation Yuanhui Huang Weiliang Chen Wenzhao Zheng Yueqi Duan Jie Zhou Jiwen Lu DiffM VGen 132 0 0 12 Jun 2025
Prompt-Guided Latent Diffusion with Predictive Class Conditioning for 3D Prostate MRI Generation Emerson P. Grabke Masoom A. Haider Babak Taati MedIm 55 0 0 11 Jun 2025
Vision Generalist Model: A Survey Ziyi Wang Yongming Rao Shuofeng Sun Xinrun Liu Yi Wei ... Zuyan Liu Yanbo Wang Hongmin Liu Jie Zhou Jiwen Lu 74 0 0 11 Jun 2025
A look at adversarial attacks on radio waveforms from discrete latent space Attanasia Garuso S. Kokalj-Filipovic Yagna Kaasaragadda 93 0 0 11 Jun 2025
DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning Dongxu Liu Yuang Peng Haomiao Tang Yuwei Chen Chunrui Han Zheng Ge Daxin Jiang Mingxue Liao DiffM 76 0 0 11 Jun 2025
MAMBO: High-Resolution Generative Approach for Mammography Images Milica Škipina Nikola Jovišić Nicola Dall’Asen Vanja Švenda Anil Osman Tur Slobodan Ilić Elisa Ricci Dubravko Ćulibrk MedIm 20 0 0 10 Jun 2025
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better Dianyi Wang Wei Song Yikun Wang Siyuan Wang Kaicheng Yu Zhongyu Wei Jiaqi Wang 45 1 0 10 Jun 2025
Segment This Thing: Foveated Tokenization for Efficient Point-Prompted Segmentation Tanner Schmidt Richard Newcombe VLM 30 0 0 10 Jun 2025
EgoM2P: Egocentric Multimodal Multitask Pretraining Gen Li Yutong Chen Yiqian Wu Kaifeng Zhao Marc Pollefeys Siyu Tang EgoV VLM 44 0 0 09 Jun 2025
LeVo: High-Quality Song Generation with Multi-Preference Alignment Shun Lei Yaoxun Xu Zhiwei Lin Huaicheng Zhang Wei Tan ... Chenyu Yang Haina Zhu Shuai Wang Zhiyong Wu Dong Yu 51 0 0 09 Jun 2025
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces Kevin Rojas Yuchen Zhu Sichen Zhu Felix X.-F. Ye Molei Tao DiffM 32 0 0 09 Jun 2025
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards Jixiang Hong Yiran Zhang Guanzhong Wang Yi Liu Ji-Rong Wen Rui Yan LRM 32 0 0 09 Jun 2025
Highly Compressed Tokenizer Can Generate Without Training Lukas Lao Beyer T. Li X. Chen S. Karaman K. He DiffM VLM 26 0 0 09 Jun 2025
GLOS: Sign Language Generation with Temporally Aligned Gloss-Level Conditioning T. Lee Hyeongjin Nam Gyeongsik Moon Kyoung Mu Lee SLR 20 0 0 09 Jun 2025
OpenDance: Multimodal Controllable 3D Dance Generation Using Large-scale Internet Data Jinlu Zhang Zixi Kang Yizhou Wang 30 0 0 09 Jun 2025
VIVAT: Virtuous Improving VAE Training through Artifact Mitigation Lev Novitskiy Viacheslav Vasilev Maria Kovaleva V. Arkhipkin Denis Dimitrov VGen 23 0 0 09 Jun 2025
Subgoal-Guided Policy Heuristic Search with Learned Subgoals Jake E. Tuero M. Buro Levi H. S. Lelis 32 0 0 08 Jun 2025
GGBall: Graph Generative Model on Poincaré Ball Tianci Bu Chuanrui Wang Hao Ma Haoren Zheng Xin Lu Tailin Wu 41 0 0 08 Jun 2025
Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization Yile Chen Yicheng Tao Yue Jiang Shuai Liu Han Yu Gao Cong 28 0 0 08 Jun 2025
BG-HOP: A Bimanual Generative Hand-Object Prior Sriram Krishna Sravan Chittupalli Sungjae Park 27 0 0 08 Jun 2025
LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer Ying Shen Zhiyang Xu Jiuhai Chen Shizhe Diao Jiaxin Zhang Yuguang Yao Joy Rimchala Ismini Lourentzou Lifu Huang OffRL 35 0 0 08 Jun 2025
CrossGen: Learning and Generating Cross Fields for Quad Meshing Qiujie Dong Jiepeng Wang Rui-Xue Xu Cheng Lin Yuan Liu ... Changhe Tu Taku Komura Leif Kobbelt Scott Schaefer Wenping Wang 32 0 0 08 Jun 2025
Neural Spectral Band Generation for Audio Coding Woongjib Choi Byeong Hyeon Kim Hyungseob Lim Inseon Jang Hong-Goo Kang 34 0 0 07 Jun 2025
FontAdapter: Instant Font Adaptation in Visual Text Generation Myungkyu Koo Subin Kim Sangkyung Kwak Jaehyun Nam Seojin Kim Jinwoo Shin DiffM VLM 66 0 0 06 Jun 2025
Projectable Models: One-Shot Generation of Small Specialized Transformers from Large Ones A. Zhmoginov Jihwan Lee Mark Sandler 44 0 0 06 Jun 2025
RecGPT: A Foundation Model for Sequential Recommendation Yangqin Jiang Xubin Ren Lianghao Xia Da Luo Kangyi Lin Chao Huang LRM 134 0 0 06 Jun 2025