Title
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zhiyong Yang Aoxiong Yin Ruibin Yuan Yanzhe Zhang Zaida Zhou AuLLM VLM 175 13 0 25 Apr 2025
Step1X-Edit: A Practical Framework for General Image Editing Shixuan Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Wei Wei Gang Yu Daxin Jiang DiffM 186 23 0 24 Apr 2025
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians Cailin Zhuang Yaoqi Hu Xinming Zhang Wei Cheng Jiacheng Bao Shengqi Liu Yiying Yang Xianfang Zeng Gang Yu Ming Li 3DGS 111 3 0 21 Apr 2025
OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation Si-Tong Wei Rui-Huan Wang Chuan-Zhi Zhou Baoquan Chen Peng-Shuai Wang 91 2 0 14 Apr 2025
OmniSVG: A Unified Scalable Vector Graphics Generation Model Yiying Yang Wei Cheng Sijin Chen Xianfang Zeng Jiaxu Zhang Liao Wang Gang Yu Xingjun Ma Xingjun Ma Yu Jiang VLM 111 5 0 08 Apr 2025
Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction Ailin Huang Boyong Wu Bruce Wang Chao Yan Chen Hu ... Tianyu Wang Wenjin Deng Wuxun Xie Weipeng Ming Wenqing He AuLLM 111 17 0 17 Feb 2025
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model Guoqing Ma Haoyang Huang K. Yan L. Chen Nan Duan ... Yansen Wang Yuanwei Lu Yu-Cheng Chen Yu-Juan Luo Yihao Luo DiffM VGen 279 40 0 14 Feb 2025
Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation Zibo Zhao Zeqiang Lai Qingxiang Lin Yunfei Zhao Haolin Liu ... Jingwei Huang Chunchao Guo Jie Jiang Jingwei Huang Chunchao Guo 247 44 0 21 Jan 2025
Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders Rui Chen Jianfeng Zhang Yixun Liang Guan Luo Weiyu Li Jiarui Liu Xiu Li Xiaoxiao Long Jiashi Feng P. Tan 174 18 0 23 Dec 2024
Scaling Mesh Generation via Compressive Tokenization Haohan Weng Zibo Zhao Biwen Lei Xiaoyu Yang Jian Liu ... Jie Jiang Chunchao Guo Tianze Zhang Shenghua Gao Cheng Chen 126 15 0 11 Nov 2024
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D Wei Cheng Juncheng Mu Xianfang Zeng Xin Chen Anqi Pang ... Zhibin Wang Bin-Bin Fu Gang Yu Ziwei Liu Liang Pan 115 12 0 04 Nov 2024
MeshLRM: Large Reconstruction Model for High-Quality Meshes Xinyue Wei Kai Zhang Sai Bi Hao Tan Fujun Luan Valentin Deschaintre Kalyan Sunkavalli Hao Su Zexiang Xu AI4CE 169 81 0 18 Apr 2024
Text-Guided Texturing by Synchronized Multi-View Diffusion Yuxin Liu M. Xie Hanyuan Liu Tien-Tsin Wong DiffM 89 57 0 21 Nov 2023
Uni3D: Exploring Unified 3D Representation at Scale Junsheng Zhou Jinsheng Wang Baorui Ma Yu-Shen Liu Tiejun Huang Xinlong Wang 76 97 0 10 Oct 2023
Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation Rui Chen Yuxiao Chen Ningxin Jiao Kui Jia DiffM 107 590 0 24 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,699 0 15 Mar 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 180 4,168 1 10 Feb 2023
3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models Biao Zhang Jiapeng Tang Matthias Niessner Peter Wonka DiffM 120 217 0 26 Jan 2023
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 118 2,418 0 19 Dec 2022
DreamFusion: Text-to-3D using 2D Diffusion Ben Poole Ajay Jain Jonathan T. Barron B. Mildenhall 170 2,433 0 29 Sep 2022
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow Xingchao Liu Chengyue Gong Qiang Liu OOD 209 1,043 0 07 Sep 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 485 15,734 0 20 Dec 2021
Zero-Shot Text-Guided Object Generation with Dream Fields Ajay Jain B. Mildenhall Jonathan T. Barron Pieter Abbeel Ben Poole 78 568 0 02 Dec 2021
Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling Xumin Yu Lulu Tang Yongming Rao Tiejun Huang Jie Zhou Jiwen Lu 3DPC 142 684 0 29 Nov 2021
ABO: Dataset and Benchmarks for Real-World 3D Object Understanding Jasmine Collins Shubham Goel Kenan Deng Achleshwar Luthra Leon L. Xu ... T. F. Y. Vicente T. Dideriksen H. Arora M. Guillaumin Jitendra Malik 216 230 0 12 Oct 2021
CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation Aditya Sanghi Hang Chu Joseph G. Lambourne Ye Wang Chin-Yi Cheng Marco Fumero Kamal Rahimi Malekshan CLIP 110 294 0 06 Oct 2021
Perceiver: General Perception with Iterative Attention Andrew Jaegle Felix Gimeno Andrew Brock Andrew Zisserman Oriol Vinyals João Carreira VLM ViT MDE 207 1,022 0 04 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 967 29,810 0 26 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 418 4,996 0 24 Feb 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 670 41,430 0 22 Oct 2020
3D-FUTURE: 3D Furniture shape with TextURE Huan Fu Rongfei Jia Lin Gao Biwei Huang Binqiang Zhao Stephen J. Maybank Dacheng Tao 3DV 83 260 0 21 Sep 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 691 18,310 0 19 Jun 2020
4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks Chris Choy JunYoung Gwak Silvio Savarese 3DPC 167 1,792 0 18 Apr 2019
Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation He Wang Srinath Sridhar Jingwei Huang Julien P. C. Valentin Shuran Song Leonidas Guibas 116 696 0 09 Jan 2019
ShapeNet: An Information-Rich 3D Model Repository Angel X. Chang Thomas Funkhouser Leonidas Guibas Pat Hanrahan Qi-Xing Huang ... Shuran Song Hao Su Jianxiong Xiao L. Yi Feng Yu 3DV 172 5,538 0 09 Dec 2015
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 426 43,814 0 01 May 2014