Neural Discrete Representation Learning

2 November 2017

Papers citing "Neural Discrete Representation Learning"

50 / 2,788 papers shown

Title
Towards the Next Frontier in Speech Representation Learning Using Disentanglement Varun Krishna Sriram Ganapathy SSL 24 1 0 02 Jul 2024
Enhancing Multi-Class Anomaly Detection via Diffusion Refinement with Dual Conditioning Jiawei Zhan Jinxiang Lai Bin-Bin Gao Jun Liu Xiaochen Chen Chengjie Wang 45 1 0 02 Jul 2024
SignCLIP: Connecting Text and Sign Language by Contrastive Learning Zifan Jiang Gerard Sant Amit Moryossef Mathias Müller Rico Sennrich Sarah Ebling VLM CLIP 49 2 0 01 Jul 2024
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation Mushui Liu Yuhang Ma Yang Zhen Jun Dan Yunlong Yu Zeng Zhao Zhipeng Hu Bai Liu Changjie Fan VLM DiffM 73 14 0 30 Jun 2024
Toward a Diffusion-Based Generalist for Dense Vision Tasks Yue Fan Yongqin Xian Xiaohua Zhai Alexander Kolesnikov Muhammad Ferjad Naeem Bernt Schiele Federico Tombari VLM MDE DiffM 53 1 0 29 Jun 2024
A deep neural network framework for dynamic multi-valued mapping estimation and its applications Geng Li Di Qiu L. Lui 35 0 0 29 Jun 2024
LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models Renzhi Wang Piji Li KELM CLL 62 7 0 28 Jun 2024
Efficient World Models with Context-Aware Tokenization Vincent Micheli Eloi Alonso François Fleuret OffRL VLM 36 6 0 27 Jun 2024
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents Zihao Wang Shaofei Cai Zhancun Mu Haowei Lin Ceyao Zhang Xuejie Liu Qing Li Hoang Trung-Dung Xiaojian Ma Yitao Liang LM&Ro 59 12 0 27 Jun 2024
DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability Hyun Joon Park Jin Sob Kim Wooseok Shin Sung Won Han DiffM 41 2 0 27 Jun 2024
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data William Berman A. Peysakhovich 39 4 0 26 Jun 2024
Diffusion Model-Based Video Editing: A Survey Wenhao Sun Rong-Cheng Tu Jingyi Liao Dacheng Tao VGen 71 22 0 26 Jun 2024
Text-Animator: Controllable Visual Text Video Generation Lin Liu Quande Liu Shengju Qian Yuan Zhou Wengang Zhou Houqiang Li Lingxi Xie Qi Tian VGen 33 1 0 25 Jun 2024
Video Occupancy Models Manan Tomar Philippe Hansen-Estruch Philip Bachman Alex Lamb John Langford Matthew E. Taylor Sergey Levine 68 1 0 25 Jun 2024
Unified Auto-Encoding with Masked Diffusion Philippe Hansen-Estruch S. Vishwanath Amy Zhang Manan Tomar DiffM 63 1 0 25 Jun 2024
SpecMaskGIT: Masked Generative Modeling of Audio Spectrograms for Efficient Audio Synthesis and Beyond Marco Comunità Zhi-Wei Zhong Akira Takahashi Shiqi Yang Mengjie Zhao Koichi Saito Yukara Ikemiya Takashi Shibuya Shusuke Takahashi Yuki Mitsufuji 71 2 0 25 Jun 2024
TSynD: Targeted Synthetic Data Generation for Enhanced Medical Image Classification Joshua Niemeijer J. Ehrhardt H. Uzunova Heinz Handels OOD DiffM MedIm 41 0 0 25 Jun 2024
SE-VGAE: Unsupervised Disentangled Representation Learning for Interpretable Architectural Layout Design Graph Generation Jielin Chen R. Stouffs CoGe 48 0 0 25 Jun 2024
Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds Hongliang Zeng Ping Zhang Fang Li Jiahua Wang Tingyu Ye Pengteng Guo 3DPC 44 0 0 25 Jun 2024
A review of unsupervised learning in astronomy Sotiria Fotopoulou 48 8 0 25 Jun 2024
Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization Yuhang Ma Wenting Xu Jiji Tang Qinfeng Jin Rongsheng Zhang Zeng Zhao Changjie Fan Zhipeng Hu 51 6 0 24 Jun 2024
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models Yang Zhang Chenjia Bai Bin Zhao Junchi Yan Xiu Li Xuelong Li OffRL 32 0 0 22 Jun 2024
Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model Min Zhao Hongzhou Zhu Chendong Xiang Kaiwen Zheng Chongxuan Li Jun Zhu 74 8 0 22 Jun 2024
Generative Topological Networks Alona Levy-Jurgenson Z. Yakhini 49 0 0 21 Jun 2024
IRASim: Learning Interactive Real-Robot Action Simulators Fangqi Zhu Hongtao Wu Song Guo Yuxiao Liu Chilam Cheang Tao Kong 80 15 0 20 Jun 2024
DASB -- Discrete Audio and Speech Benchmark Pooneh Mousavi Luca Della Libera J. Duret Artem Ploujnikov Cem Subakan Mirco Ravanelli 37 15 0 20 Jun 2024
MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset Kim Sung-Bin Lee Chae-Yeon Gihun Son Oh Hyun-Bin Janghoon Ju Suekyeong Nam Tae-Hyun Oh 41 12 0 20 Jun 2024
HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment Yongqiang Chen Quanming Yao Juzheng Zhang James Cheng Yatao Bian 45 4 0 20 Jun 2024
AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework Ya-Lun Li 55 0 0 20 Jun 2024
CONMOD: Controllable Neural Frame-based Modulation Effects Gyubin Lee Hounsu Kim Junwon Lee Juhan Nam 43 0 0 20 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 46 1 0 19 Jun 2024
In-Context Former: Lightning-fast Compressing Context for Large Language Model Xiangfeng Wang Zaiyi Chen Zheyong Xie Tong Xu Yongyi He Enhong Chen 51 1 0 19 Jun 2024
LangTopo: Aligning Language Descriptions of Graphs with Tokenized Topological Modeling Zhong Guan Hongke Zhao Likang Wu Ming He Jianpin Fan 45 3 0 19 Jun 2024
High-Fidelity Facial Albedo Estimation via Texture Quantization Zimin Ran Xingyu Ren Xiang An Kaicheng Yang Xiangzi Dai Ziyong Feng Jia Guo Linchao Zhu Jiankang Deng CVBM 3DH 47 0 0 19 Jun 2024
FCA-RAC: First Cycle Annotated Repetitive Action Counting Jiada Lu Weiwei Zhou Xiang Qian Dongze Lian Yanyu Xu Weifeng Wang Lina Cao Shenghua Gao 23 0 0 18 Jun 2024
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner Kenneth Li Yiming Wang Fernanda Viégas Martin Wattenberg 43 6 0 17 Jun 2024
Autoregressive Image Generation without Vector Quantization Tianhong Li Yonglong Tian He Li Mingyang Deng Kaiming He DiffM 62 184 0 17 Jun 2024
Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% Lei Zhu Fangyun Wei Yanye Lu Dong Chen VLM 48 34 0 17 Jun 2024
Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space Yuan Wang Zhao Wang Junhao Gong Di Huang Tong He ... J. Jiao Xuetao Feng Qi Dou Shixiang Tang Dan Xu 46 3 0 17 Jun 2024
Federated Learning Optimization: A Comparative Study of Data and Model Exchange Strategies in Dynamic Networks Alka Luqman Yeow Wei Liang Brandon Anupam Chattopadhyay 30 0 0 16 Jun 2024
SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation Yike Yuan Huanzhang Dou Fengjun Guo Xi Li 41 2 0 15 Jun 2024
UniZero: Generalized and Efficient Planning with Scalable Latent World Models Yuan Pu Yazhe Niu Jiyuan Ren Zhenjie Yang Hongsheng Li Yu Liu OffRL 54 1 0 15 Jun 2024
TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation Haohao Qu Wenqi Fan Zihuai Zhao Qing Li 28 16 0 15 Jun 2024
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers Yiwen Chen Tong He Di Huang Weicai Ye Sijin Chen ... Zhongang Cai Lei Yang Gang Yu Guosheng Lin Chi Zhang 58 49 0 14 Jun 2024
Precipitation Nowcasting Using Physics Informed Discriminator Generative Models Junzhe Yin Cristian Meo Ankush Roy Zeineh Bou Cher Yanbo Wang R. Imhoff R. Uijlenhoet Justin Dauwels 49 0 0 14 Jun 2024
UniAudio 1.5: Large Language Model-driven Audio Codec is A Few-shot Audio Task Learner Dongchao Yang Haohan Guo Yuanyuan Wang Rongjie Huang Xiang Li Xu Tan Xixin Wu Helen Meng AuLLM 52 16 0 14 Jun 2024
Neural Concept Binder Wolfgang Stammer Antonia Wüst David Steinmann Kristian Kersting OCL 44 4 0 14 Jun 2024
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild Lingni Ma Yuting Ye Fangzhou Hong Vladimir Guzov Yifeng Jiang ... C. Karen Liu Ziwei Liu Jakob Engel R. D. Nardi Richard Newcombe 37 20 0 14 Jun 2024
ControlVAR: Exploring Controllable Visual Autoregressive Modeling Xiang Li Kai Qiu Hao Chen Jason Kuen Zhe Lin Rita Singh Bhiksha Raj DiffM 48 21 0 14 Jun 2024
Optimizing Byte-level Representation for End-to-end ASR Roger Hsiao Liuhui Deng Erik McDermott R. Travadi Xiaodan Zhuang 29 0 0 14 Jun 2024