GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

v1v2v3v4 (latest)

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

2 January 2025

Hengshuang Zhao

ArXiv (abs)PDF HTML

Papers citing "GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models"

9 / 109 papers shown

Title
Scan2Cap: Context-aware Dense Captioning in RGB-D Scans Dave Zhenyu Chen A. Gholami Matthias Nießner Angel X. Chang 3DPC 187 176 0 03 Dec 2020
PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation Li Jiang Hengshuang Zhao Shaoshuai Shi Shu Liu Chi-Wing Fu Jiaya Jia 3DPC 93 438 0 03 Apr 2020
ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language Dave Zhenyu Chen Angel X. Chang Matthias Nießner 3DPC 115 379 0 18 Dec 2019
RIO: 3D Object Instance Re-Localization in Changing Indoor Environments Johanna Wald A. Avetisyan Nassir Navab Federico Tombari Matthias Nießner 88 160 0 16 Aug 2019
Structured3D: A Large Photo-realistic Dataset for Structured 3D Modeling Jia Zheng Junfei Zhang Jing Li Rui Tang Shenghua Gao Zihan Zhou 3DV 117 274 0 01 Aug 2019
The Replica Dataset: A Digital Replica of Indoor Spaces Julian Straub Thomas Whelan Lingni Ma Yufan Chen Erik Wijmans ... H. Strasdat R. D. Nardi Michael Goesele S. Lovegrove Richard Newcombe 3DV 138 866 0 13 Jun 2019
Deep Hough Voting for 3D Object Detection in Point Clouds C. Qi Or Litany Kaiming He Leonidas Guibas 3DPC 138 1,295 0 21 Apr 2019
Matterport3D: Learning from RGB-D Data in Indoor Environments Angel X. Chang Angela Dai Thomas Funkhouser Maciej Halber Matthias Nießner Manolis Savva Shuran Song Andy Zeng Yinda Zhang 3DV 3DPC 229 1,923 0 18 Sep 2017
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes Angela Dai Angel X. Chang Manolis Savva Maciej Halber Thomas Funkhouser Matthias Nießner 3DPC 3DV 765 4,104 0 14 Feb 2017