v1v2 (latest)

Neural Discrete Representation Learning

2 November 2017

Papers citing "Neural Discrete Representation Learning"

50 / 3,267 papers shown

Title
Representation Learning on a Random Lattice Aryeh Brill OOD FAtt AI4CE 128 0 0 28 Apr 2025
Preserving Seasonal and Trend Information: A Variational Autoencoder-Latent Space Arithmetic Based Approach for Non-stationary Learning Hassan Wasswa Aziida Nanyonga Timothy Lynar 84 1 0 26 Apr 2025
REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models Gal Almog Ariel Shamir Ohad Fried DiffM 77 0 0 26 Apr 2025
POET: Prompt Offset Tuning for Continual Human Action Adaptation Prachi Garg Joseph K J V. Balasubramanian Necati Cihan Camgöz Chengde Wan Kenrick Kin Weiguang Si Shugao Ma Fernando de la Torre 140 0 0 25 Apr 2025
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation Weipeng Tan Chuming Lin Chengming Xu F. Xu Xiaobin Hu Xiaozhong Ji Junwei Zhu Chengjie Wang Yanwei Fu 93 0 0 25 Apr 2025
SSD-Poser: Avatar Pose Estimation with State Space Duality from Sparse Observations Shuting Zhao Linxin Bai Liangjing Shao Ye Zhang Xinrong Chen 73 0 0 25 Apr 2025
DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks Yinqi Li Hong Chang Ruibing Hou Shiguang Shan Xilin Chen DiffM 103 0 0 24 Apr 2025
Enhancing Variational Autoencoders with Smooth Robust Latent Encoding Hyomin Lee Minseon Kim Sangwon Jang Jongheon Jeong Sung Ju Hwang DiffM AAML 78 2 0 24 Apr 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 193 4 0 24 Apr 2025
Fast Autoregressive Models for Continuous Latent Generation Tiankai Hang Jianmin Bao Fangyun Wei Dong Chen DiffM 114 1 0 24 Apr 2025
Distilling semantically aware orders for autoregressive image generation Rishav Pramanik Antoine Poupon Juan A. Rodriguez Masih Aminbeidokhti David Vazquez Christopher Pal Zhaozheng Yin M. Pedersoli 90 0 0 23 Apr 2025
Hyper-Transforming Latent Diffusion Models I. Peis Batuhan Koyuncu Isabel Valera J. Frellsen 204 1 0 23 Apr 2025
Unifying Image Counterfactuals and Feature Attributions with Latent-Space Adversarial Attacks Jeremy Goldwasser Giles Hooker AAML 91 0 0 21 Apr 2025
Learning Compositional Transferability of Time Series for Source-Free Domain Adaptation Hankang Sun Guiming Li Su Yang Baoqi Li AI4TS TTA 125 0 0 21 Apr 2025
SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization Liang Peng Boxi Wu Haoran Cheng Yibo Zhao Xiaofei He 68 0 0 20 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 116 8 0 20 Apr 2025
Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning Jiyuan Shi Xinzhe Liu Dewei Wang Ouyang Lu Sören Schwertfeger Fuchun Sun Chenjia Bai Xiaochen Li 127 2 0 19 Apr 2025
Towards Explainable Fake Image Detection with Multi-Modal Large Language Models Yikun Ji Y. Hong Jiahui Zhan H. Chen Jun Lan Huijia Zhu Weiqiang Wang Lefei Zhang Jianfu Zhang MLLM LRM 122 0 0 19 Apr 2025
Lightweight Road Environment Segmentation using Vector Quantization Jiyong Kwag Alper Yilmaz Charles Toth 72 0 0 19 Apr 2025
A synthetic dataset of French electric load curves with temperature conditioning Tahar Nabil Ghislain Agoua Pierre Cauchois Anne de Moliner B. Grossin 73 0 0 18 Apr 2025
Image Editing with Diffusion Models: A Survey Jia Wang Jie Hu Xiaoqi Ma Hanghang Ma Xiaoming Wei Enhua Wu 156 1 0 17 Apr 2025
Personalized Text-to-Image Generation with Auto-Regressive Models Kaiyue Sun Xian Liu Yao Teng Xihui Liu 93 1 0 17 Apr 2025
Hierarchical Vector Quantized Graph Autoencoder with Annealing-Based Code Selection Long Zeng Jianxiang Yu Jiapeng Zhu Qingsong Zhong Xiang Li 74 0 0 17 Apr 2025
Support is All You Need for Certified VAE Training Changming Xu Debangshu Banerjee Deepak Vasisht Gagandeep Singh AAML 74 0 0 16 Apr 2025
How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions Aditya Prakash Benjamin Lundell Dmitry Andreychuk David Forsyth Saurabh Gupta H. Sawhney 158 2 0 16 Apr 2025
Towards Learning to Complete Anything in Lidar Ayca Takmaz Cristiano Saltori Neehar Peri Tim Meinhardt Riccardo de Lutio Laura Leal-Taixé Aljosa Osep 3DV VLM 106 3 0 16 Apr 2025
QAMA: Quantum annealing multi-head attention operator with classical deep learning framework Peng Du Shuolei Wang Shicheng Li Jinjing Shi 70 0 0 15 Apr 2025
TerraMind: Large-Scale Generative Multimodality for Earth Observation Johannes Jakubik Felix Yang Benedikt Blumenstiel Erik Scheurer Rocco Sedona ... P. Fraccaro Thomas Brunschwiler Gabriele Cavallaro Juan Bernabé-Moreno Nicolas Longépé MLLM VLM 133 6 0 15 Apr 2025
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception Ziqi Pang Xin Xu Yu-Xiong Wang DiffM 204 0 0 15 Apr 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 424 13 0 15 Apr 2025
Elucidating the Design Space of Multimodal Protein Language Models Cheng-Yen Hsieh Xinze Wang Daiheng Zhang Dongyu Xue Fei Ye Shujian Huang Zaixiang Zheng Quanquan Gu 100 1 0 15 Apr 2025
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers Xingjian Leng Jaskirat Singh Yunzhong Hou Zhenchang Xing Saining Xie Liang Zheng 102 6 0 14 Apr 2025
OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation Si-Tong Wei Rui-Huan Wang Chuan-Zhi Zhou Baoquan Chen Peng-Shuai Wang 107 2 0 14 Apr 2025
EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation Xiangyue Zhang Jianfang Li Jiaxu Zhang Jianqiang Ren Liefeng Bo Zhigang Tu 89 0 0 12 Apr 2025
Synthetic Aircraft Trajectory Generation Using Time-Based VQ-VAE Abdulmajid Murad Massimiliano Ruocco 54 0 0 12 Apr 2025
Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling Ziran Qin Youru Lv Mingbao Lin Zeren Zhang Danping Zou Weiyao Lin VLM 93 1 0 12 Apr 2025
Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner Liu Xiao Li Zhiyuan Lin Yueyu 87 0 0 11 Apr 2025
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft Junliang Guo Yang Ye Tianyu He Haoyu Wu Yushu Jiang Tim Pearce Li Zhao VGen SyDa 127 12 0 11 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 99 1 0 11 Apr 2025
MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer Yilin Wang Chuan Guo Yuxuan Mu Muhammad Gohar Javed Wei Ji Juwei Lu Hai Jiang Li Cheng VGen 68 0 0 11 Apr 2025
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 164 14 0 11 Apr 2025
Synthetic CT Generation from Time-of-Flight Non-Attenutaion-Corrected PET for Whole-Body PET Attenuation Correction Weijie Chen James Wang Alan McMillan MedIm 33 0 0 10 Apr 2025
Vector Quantized-Elites: Unsupervised and Problem-Agnostic Quality-Diversity Optimization Constantinos Tsakonas Konstantinos Chatzilygeroudis 75 0 0 10 Apr 2025
MoEDiff-SR: Mixture of Experts-Guided Diffusion Model for Region-Adaptive MRI Super-Resolution Zhe Wang Yuhua Ru A. Chetouani Fang Chen Fabian Bauer Liping Zhang Didier Hans Rachid Jennane M. Jarraya Yung Hsin Chen DiffM MedIm 61 0 0 09 Apr 2025
BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation Kaiyuan Li Rui Xiang Yong Bai Yongxiang Tang Yanhua Cheng Xialong Liu Peng Jiang Kun Gai 50 1 0 09 Apr 2025
Domain Generalization via Discrete Codebook Learning Shaocong Long Qianyu Zhou Xikun Jiang Chenhao Ying Lizhuang Ma Yuan Luo 85 1 0 09 Apr 2025
A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model Jihun Park Jongmin Gim Kyoungmin Lee Minseok Oh Minwoo Choi Jaeyeul Kim Woo Chool Park Sunghoon Im DiffM 79 0 0 08 Apr 2025
Multi-Sense Embeddings for Language Models and Knowledge Distillation Qitong Wang Mohammed J. Zaki Georgios Kollias Vasileios Kalantzis KELM 86 1 0 08 Apr 2025
Pre-training Generative Recommender with Multi-Identifier Item Tokenization Bowen Zheng Enze Liu Zhongfu Chen Zhongrui Ma Yue Wang Wayne Xin Zhao Ji-Rong Wen 168 0 0 06 Apr 2025
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding Yang Jiao Haibo Qiu Zequn Jie Tian Jin Jingjing Chen Lin Ma Yu Jiang 120 10 0 06 Apr 2025