Neural Discrete Representation Learning

2 November 2017

Papers citing "Neural Discrete Representation Learning"

50 / 2,789 papers shown

Title
Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient Zechu Li Rickmer Krohn Tao Chen Anurag Ajay Pulkit Agrawal Georgia Chalvatzaki DiffM 67 9 0 02 Jun 2024
T2LM: Long-Term 3D Human Motion Generation from Multiple Sentences T. Lee Fabien Baradel Thomas Lucas Kyoung Mu Lee Grégory Rogez 54 5 0 02 Jun 2024
ContextFlow++: Generalist-Specialist Flow-based Generative Models with Mixed-Variable Context Encoding Denis A. Gudovskiy Tomoyuki Okuno Yohei Nakata MoE AI4CE 49 2 0 02 Jun 2024
AudioLCM: Text-to-Audio Generation with Latent Consistency Models Huadai Liu Rongjie Huang Yang Liu Hengyuan Cao Jialei Wang Xize Cheng Siqi Zheng Zhou Zhao 76 8 0 01 Jun 2024
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies Jinchao Zhu Yuxuan Wang Siyuan Pan Pengfei Wan Di Zhang Gao Huang 42 0 0 31 May 2024
SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model Zhengang Li Yan Kang Yuchen Liu Difan Liu Tobias Hinz Feng Liu Yanzhi Wang DiffM 37 1 0 31 May 2024
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling Jiatao Gu Ying Shen Shuangfei Zhai Yizhe Zhang Navdeep Jaitly J. Susskind 62 9 0 31 May 2024
MeshXL: Neural Coordinate Field for Generative 3D Foundation Models Sijin Chen Xin Chen Anqi Pang Xianfang Zeng Wei Cheng ... C. Zhang Jingyi Yu Gang Yu Bin-Bin Fu Tao Chen AI4CE 58 39 0 31 May 2024
Ovis: Structural Embedding Alignment for Multimodal Large Language Model Shiyin Lu Yang Li Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang Han-Jia Ye VLM MLLM 61 40 0 31 May 2024
Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes Riccardo Benaglia Angelo Porrello Pietro Buzzega Simone Calderara Rita Cucchiara 20 0 0 31 May 2024
Slight Corruption in Pre-training Data Makes Better Diffusion Models Hao Chen Yujin Han Diganta Misra Xiang Li Kai Hu Difan Zou Masashi Sugiyama Jindong Wang Bhiksha Raj DiffM 50 5 0 30 May 2024
Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images Krishnakant Singh Thanush Navaratnam Jannik Holmer Simone Schaub-Meyer Stefan Roth DiffM 57 18 0 30 May 2024
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving Lening Wang Wenzhao Zheng Yilong Ren Han Jiang Zhiyong Cui Haiyang Yu Jiwen Lu VGen 45 29 0 30 May 2024
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text Jiaben Chen Xin Yan Yihang Chen Siyuan Cen Qinwei Ma Haoyu Zhen Kaizhi Qian Lie Lu Chuang Gan 43 0 0 30 May 2024
CV-VAE: A Compatible Video VAE for Latent Generative Video Models Sijie Zhao Yong Zhang Xiaodong Cun Shaoshu Yang Muyao Niu Xiaoyu Li Wenbo Hu Ying Shan DiffM 61 24 0 30 May 2024
Transformers and Slot Encoding for Sample Efficient Physical World Modelling Francesco Petri Luigi Asprino Aldo Gangemi OCL ViT 36 0 0 30 May 2024
LAGMA: LAtent Goal-guided Multi-Agent Reinforcement Learning Hyungho Na IL-Chul Moon 48 1 0 30 May 2024
Stratified Avatar Generation from Sparse Observations Han Feng Wenchao Ma Quankai Gao Xianwei Zheng Nan Xue Huijuan Xu 3DH 34 7 0 30 May 2024
Predicting Long-Term Human Behaviors in Discrete Representations via Physics-Guided Diffusion Zhitian Zhang Anjian Li Angelica Lim Mo Chen 47 3 0 29 May 2024
Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI Wei-Bang Jiang Li-Ming Zhao Bao-Liang Lu 45 71 0 29 May 2024
MEGA: Masked Generative Autoencoder for Human Mesh Recovery Guénolé Fiche Simon Leglaive Xavier Alameda-Pineda Francesc Moreno-Noguer 3DH 66 1 0 29 May 2024
Wavelet-Based Image Tokenizer for Vision Transformers Zhenhai Zhu Radu Soricut ViT 57 3 0 28 May 2024
Text Modality Oriented Image Feature Extraction for Detecting Diffusion-based DeepFake Di Yang Yihao Huang Qing Guo Felix Juefei Xu Xiaojun Jia Run Wang G. Pu Yang Liu DiffM 39 0 0 28 May 2024
Advancing Cultural Inclusivity: Optimizing Embedding Spaces for Balanced Music Recommendations Armin Moradi Nicola Neophytou G. Farnadi 22 0 0 27 May 2024
From Text to Blueprint: Leveraging Text-to-Image Tools for Floor Plan Creation Xiaoyu Li Jonathan Benjamin Xin Zhang 53 1 0 27 May 2024
BeamVQ: Aligning Space-Time Forecasting Model via Self-training on Physics-aware Metrics Hao Wu Xingjian Shi Ziyue Huang Penghao Zhao Wei Xiong Jinbao Xue Yangyu Tao Xiaomeng Huang Weiyan Wang AI4TS 63 1 0 27 May 2024
Interpretable Robotic Manipulation from Language Boyuan Zheng Jianlong Zhou Fang Chen LM&Ro 48 0 0 27 May 2024
BWArea Model: Learning World Model, Inverse Dynamics, and Policy for Controllable Language Generation Chengxing Jia Pengyuan Wang Ziniu Li Yi-Chen Li Zhilong Zhang Nan Tang Yang Yu OffRL 42 1 0 27 May 2024
$$\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation$ $\text{Di}^2\text{Pose}$ : Discrete Diffusion Model for Occluded 3D Human Pose Estimation Weiquan Wang Jun Xiao Chunping Wang Wei Liu Zhao Wang Long Chen DiffM 40 1 0 27 May 2024
Listenable Maps for Zero-Shot Audio Classifiers Francesco Paissan Luca Della Libera Mirco Ravanelli Cem Subakan 45 4 0 27 May 2024
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation Jinlin Liu Kai Yu Mengyang Feng Xiefan Guo Miaomiao Cui DiffM 39 3 0 26 May 2024
Variational Offline Multi-agent Skill Discovery Jiayu Chen Bhargav Ganguly Tian-Shing Lan OffRL 69 3 0 26 May 2024
RoboArm-NMP: a Learning Environment for Neural Motion Planning Tom Jurgenson Matan Sudry Gal Avineri Aviv Tamar 32 0 0 25 May 2024
Hierarchical Uncertainty Exploration via Feedforward Posterior Trees E. Nehme Rotem Mulayoff T. Michaeli UQCV 53 2 0 24 May 2024
Learning Generalizable Human Motion Generator with Reinforcement Learning Yunyao Mao Xiaoyang Liu Wen-gang Zhou Zhenbo Lu Houqiang Li 48 2 0 24 May 2024
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer Zichen Geng Caren Han Zeeshan Hayder Jian Liu Mubarak Shah Ajmal Mian 32 3 0 24 May 2024
SoundLoCD: An Efficient Conditional Discrete Contrastive Latent Diffusion Model for Text-to-Sound Generation Xinlei Niu Jing Zhang Christian J. Walder Charles Patrick Martin 27 2 0 24 May 2024
Towards Global Optimal Visual In-Context Learning Prompt Selection Chengming Xu Chen Liu Yikai Wang Yanwei Fu 26 5 0 24 May 2024
ParamReL: Learning Parameter Space Representation via Progressively Encoding Bayesian Flow Networks Zhangkai Wu Xuhui Fan Jin Li Zhilin Zhao Hui Chen LongBing Cao 57 2 0 24 May 2024
iVideoGPT: Interactive VideoGPTs are Scalable World Models Jialong Wu Shaofeng Yin Ningya Feng Xu He Dong Li Haifeng Zhang Mingsheng Long VGen 54 27 0 24 May 2024
MuDreamer: Learning Predictive World Models without Reconstruction Maxime Burchi Radu Timofte 40 3 0 23 May 2024
PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression Vladimir Malinovskii Denis Mazur Ivan Ilin Denis Kuznedelev Konstantin Burlachenko Kai Yi Dan Alistarh Peter Richtárik MQ 42 20 0 23 May 2024
WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models Peng Wang Zexi Li Ningyu Zhang Ziwen Xu Yunzhi Yao Yong-jia Jiang Pengjun Xie Fei Huang Huajun Chen KELM CLL 58 20 0 23 May 2024
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling Shuaipeng Li Penghao Zhao Hailin Zhang Xingwu Sun Hao Wu ... Zheng Fang Jinbao Xue Yangyu Tao Bin Cui Di Wang 40 7 0 23 May 2024
Time Cell Inspired Temporal Codebook in Spiking Neural Networks for Enhanced Image Generation Linghao Feng Dongcheng Zhao Sicheng Shen Yiting Dong Guobin Shen Yi Zeng 49 2 0 23 May 2024
Poisson Variational Autoencoder Hadi Vafaii Dekel Galor Jacob L. Yates DRL 50 1 0 23 May 2024
Reliable Trajectory Prediction and Uncertainty Quantification with Conditioned Diffusion Models Marion Neumeier Sebastian Dorn M. Botsch Wolfgang Utschick DiffM 50 3 0 23 May 2024
A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation Gwanghyun Kim Alonso Martinez Yu-Chuan Su Brendan Jou José Lezama ... Lijun Yu Lu Jiang A. Jansen Jacob Walker Krishna Somandepalli 34 8 0 22 May 2024
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation Zhiping Yu Chenyang Liu Liqin Liu Z. Shi Zhengxia Zou VGen 34 13 0 22 May 2024
MotionCraft: Physics-based Zero-Shot Video Generation L. S. Aira Antonio Montanaro Emanuele Aiello D. Valsesia E. Magli DiffM VGen 36 9 0 22 May 2024