v1v2 (latest)

Neural Discrete Representation Learning

2 November 2017

Papers citing "Neural Discrete Representation Learning"

50 / 3,267 papers shown

Title
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 185 0 0 14 Mar 2025
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing S. Lionar Jiabin Liang G. Lee 3DPC 86 3 0 14 Mar 2025
Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction Haonan Wang Qixiang Zhang Lehan Wang Xuanqi Huang Xiaomeng Li VOS VGen 108 0 0 14 Mar 2025
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models Ziqin Zhou Yifan Yang Yue Yang Tianyu He Houwen Peng Kai Qiu Qi Dai Lili Qiu Chong Luo Lingqiao Liu DiffM VGen 82 1 0 14 Mar 2025
DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image Qi Zhao Zhan Ma Pan Zhou VGen 149 0 0 13 Mar 2025
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction Xuying Zhang Yutong Liu Yangguang Li Renrui Zhang Yong Liu ... Wanli Ouyang Zhiwei Xiong Peng Gao Qibin Hou Ming-Ming Cheng 244 3 0 13 Mar 2025
MetricGrids: Arbitrary Nonlinear Approximation with Elementary Metric Grids based Implicit Neural Representation Shu Wang Yanbo Gao Shuai Li Chong Lv Xun Cai Chuankun Li Hui Yuan Jing Zhang 124 0 0 13 Mar 2025
Autoregressive Image Generation with Vision Full-view Prompt Miaomiao Cai G. Wang Wei Li Zhijun Tu Hanting Chen Shaohui Lin Jie Hu LRM 99 0 0 13 Mar 2025
BioSerenity-E1: a self-supervised EEG model for medical applications Ruggero G. Bettinardi Mohamed Rahmouni Ulysse Gimenez 121 1 0 13 Mar 2025
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance Yufan Deng Xun Guo Yanjie Wang Jacob Zhiyuan Fang Angtian Wang Shenghai Yuan Yiding Yang Bo Liu Haibin Huang Chongyang Ma DiffM VGen 156 3 0 13 Mar 2025
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data Paul Quinlan Qingguo Li Xiaodan Zhu AI4TS LRM 92 0 0 13 Mar 2025
Dual Codebook VQ: Enhanced Image Reconstruction with Reduced Codebook Size Parisa Boodaghi Malidarreh Jillur Rahman Saurav T. Pham Amir Hajighasemi Anahita Samadi Saurabh Shrinivas Maydeo M. Nasr Jacob M. Luber 105 0 0 13 Mar 2025
Autoregressive Image Generation with Randomized Parallel Decoding Haopeng Li Jinyue Yang Guoqi Li Huan Wang 103 1 0 13 Mar 2025
IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond Peng Hu Chunming He Lei Xu Jingduo Tian Sina Farsiu Yize Zhang Pei Liu Xiu Li 109 0 0 12 Mar 2025
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding Rui Yang Lin Song Yicheng Xiao Runhui Huang Yixiao Ge Ying Shan Hengshuang Zhao MLLM 114 3 0 12 Mar 2025
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling Nikolai Korber Eduard Kromer Andreas Siebert S. Hauke Daniel Mueller-Gritschneder Björn Schuller 94 0 0 12 Mar 2025
Temporal Difference Flows Jesse Farebrother Matteo Pirotta Andrea Tirinzoni Rémi Munos A. Lazaric Ahmed Touati AI4TS AIFin 168 1 0 12 Mar 2025
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space Yifan Zhou Zeqi Xiao Shuai Yang Xingang Pan 142 3 0 12 Mar 2025
NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers Yuhang Ma Bo Cheng Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin 112 0 0 12 Mar 2025
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis Kai Qiu Xianrui Li Jason Kuen Hong Chen Xiaohao Xu Jiuxiang Gu Yinyi Luo Bhiksha Raj Zhe Lin Marios Savvides 174 2 0 11 Mar 2025
HERO: Human Reaction Generation from Videos Chengjun Yu Wei-dong Zhai Yuhang Yang Yang Cao Zheng-jun Zha VGen 125 0 0 11 Mar 2025
"Principal Components" Enable A New Language of Images Xin Wen Bingchen Zhao Ismail Elezi Jiankang Deng Xiaojuan Qi 117 1 0 11 Mar 2025
Posterior-Mean Denoising Diffusion Model for Realistic PET Image Reconstruction Yiran Sun Osama Mawlawi DiffM MedIm 81 0 0 11 Mar 2025
ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models Zicheng Ma Chuanliu Fan Zhicong Wang Zhenyu Chen Xiaohan Lin Yongqian Li Shihao Feng Jun Zhang Ziqiang Cao Y. Gao 115 0 0 11 Mar 2025
MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution Xiaochen Li Jianlong Wu Xinchuan Huang C. L. Philip Chen Weili Guan Xian-Sheng Hua Liqiang Nie DiffM 88 0 0 11 Mar 2025
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment Xing Xie Jiawei Liu Ziyue Lin Huijie Fan Zhi Han Yandong Tang Liangqiong Qu 117 0 0 10 Mar 2025
SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models Ouxiang Li Yuan Wang Xinting Hu Houcheng Jiang Tao Liang Y. Hao Guojun Ma Fuli Feng DiffM 92 2 0 10 Mar 2025
NFIG: Autoregressive Image Generation with Next-Frequency Prediction Zhihao Huang Xi Qiu Yukuo Ma Yifu Zhou Junjie Chen Xuelong Li Fangqiu Yi Xuelong Li VLM 122 0 0 10 Mar 2025
Temporal Triplane Transformers as Occupancy World Models Haoran Xu Peixi Peng Guang Tan Yiqian Chang Yisen Zhao Yonghong Tian 196 2 0 10 Mar 2025
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation Yuwei Niu Munan Ning Mengren Zheng Weiyang Jin Bin Lin ... Jiaqi Liao Chaoran Feng Kunpeng Ning Bin Zhu Li Yuan EGVM 156 26 0 10 Mar 2025
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset Shuhe Wang Xiaoya Li Jiwei Li G. Wang Xiaofei Sun ... Han Qiu Mo Yu Shengjie Shen Tianwei Zhang Eduard H. Hovy VLM 130 1 0 10 Mar 2025
Personalized Convolutional Dictionary Learning of Physiological Time Series Axel Roques Samuel Gruffaz Kyurae Kim Alain Durmus Laurent Oudre 82 0 0 10 Mar 2025
Effective and Efficient Masked Image Generation Models Zebin You Jingyang Ou Xiaolu Zhang Jun Hu Jun Zhou Chongxuan Li DiffM VLM 118 3 0 10 Mar 2025
Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition Juncheng Wang Chao Xu Cheng Yu Lei Shang Zhe Hu Shujun Wang Liefeng Bo DiffM VGen 99 0 0 10 Mar 2025
V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation Guiwei Zhang Tianyu Zhang Mohan Zhou Yalong Bai Biye Li 147 0 0 10 Mar 2025
Transforming Weather Data from Pixel to Latent Space Sijie Zhao Feng Liu Xueliang Zhang Hao Chen Tao Han Junchao Gong R. Tao Pengfeng Xiao Lei Bai Wanli Ouyang 173 0 0 09 Mar 2025
Color Alignment in Diffusion Ka Chun Shum Binh-Son Hua Duc Thanh Nguyen Sai-Kit Yeung 80 0 0 09 Mar 2025
ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis Xukun Zhou Fengxin Li Ming Chen Yan Zhou Pengfei Wan Di Zhang Yeying Jin Zhaoxin Fan Hongyan Liu Jun He DiffM VGen 102 0 0 09 Mar 2025
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation Zhenpeng Chen Chunwei Wang Xiuwei Chen Hongbin Xu Jiawei Han Xiandan Liang J. N. Han Hang Xu Xiaodan Liang VLM 202 2 0 09 Mar 2025
Attention-Based Synthetic Data Generation for Calibration-Enhanced Survival Analysis: A Case Study for Chronic Kidney Disease Using Electronic Health Records N. Kuo B. Gallego Louisa R Jorm SyDa 124 1 0 08 Mar 2025
Frequency Autoregressive Image Generation with Continuous Tokens Hu Yu Hao Luo Hangjie Yuan Yu Rong Feng Zhao VGen 103 10 0 07 Mar 2025
Discrete Contrastive Learning for Diffusion Policies in Autonomous Driving Kalle Kujanpää Daulet Baimukashev Farzeen Munir Shoaib Azam Tomasz Piotr Kucner Joni Pajarinen Ville Kyrki 98 0 0 07 Mar 2025
Learning Transformer-based World Models with Contrastive Predictive Coding Maxime Burchi Radu Timofte 136 2 0 06 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 145 3 0 06 Mar 2025
Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach Soumyadeep Ro Sanapala Satwika Pamarthi Yasoda Gayathri Mohmmad Ghaith Balsha Aysegul Ucar VLM ObjD 156 0 0 06 Mar 2025
Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning Victor Sebastian Martinez Pozos Ivan Vladimir Meza Ruiz 69 0 0 06 Mar 2025
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning Zhong Ji Weilong Cao Yan Zhang Yanwei Pang Jungong Han Xuelong Li DiffM VLM 92 0 0 06 Mar 2025
VQEL: Enabling Self-Developed Symbolic Language in Agents through Vector Quantization in Emergent Language Games Mohammad Mahdi Samiei Paqaleh Mahdieh Soleymani Baghshah 102 0 0 06 Mar 2025
Boosting Offline Optimizers with Surrogate Sensitivity Manh Cuong Dao Phi Le Nguyen Thao Nguyen Truong Trong Nghia Hoang OffRL 106 6 0 06 Mar 2025
Handling Uncertainty in Health Data using Generative Algorithms Mahdi Arab Loodaricheh Neh Majmudar A. Raja Ansaf Salleb-Aouissi 105 1 0 05 Mar 2025