ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language

18 December 2019

Matthias Nießner

Papers citing "ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language"

50 / 238 papers shown

Title
SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence Jiabin Chen Haiping Wang Jinpeng Li Yuan Liu Zhen Dong Bisheng Yang 7 0 0 19 May 2025
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning Kai Zhang Xingyu Chen Xiaofeng Zhang 7 0 0 19 May 2025
Spatial-LLaVA: Enhancing Large Language Models with Spatial Referring Expressions for Visual Understanding Xuefei Sun Doncey Albin Cecilia Mauceri Dusty Woods Christoffer Heckman LRM 2 0 0 18 May 2025
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding Henry Zheng Hao Shi Qihang Peng Yong Xien Chng Rui Huang Yepeng Weng Zhongchao Shi Gao Huang 77 1 0 08 May 2025
SITE: towards Spatial Intelligence Thorough Evaluation Luu Anh Tuan Reuben Tan Pengyue Zhu Jianwei Yang Zhengyuan Yang Lijuan Wang Andrey Kolobov Jianfeng Gao Boqing Gong 45 0 0 08 May 2025
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models Shun Taguchi Hideki Deguchi Takumi Hamazaki Hiroyuki Sakai ReLM LRM 49 0 0 08 May 2025
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes Ahmed Abdelreheem Filippo Aleotti Jamie Watson Z. Qureshi Abdelrahman Eldesokey Peter Wonka Gabriel J. Brostow Sara Vicente Guillermo Garcia-Hernando DiffM 59 0 0 08 May 2025
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding Feng Xiao Hongbin Xu Guocan Zhao Wenxiong Kang 53 0 0 07 May 2025
3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment Xianrui Li Jing Liu Nuowei Han Liang Heng Y. Guo Hao Dong Yang Liu 71 0 0 03 May 2025
SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models Nader Zantout Haochen Zhang Pujith Kachana J. Qiu Ji Zhang Wenshan Wang LM&Ro LRM 171 0 0 25 Apr 2025
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D Sergio Arnaud Paul Mcvay Ada Martin Arjun Majumdar Krishna Murthy Jatavallabhula ... Nicolas Ballas Mido Assran Oleksandr Maksymets Aravind Rajeswaran Franziska Meier 3DPC 46 0 0 19 Apr 2025
Multi-Object Grounding via Hierarchical Contrastive Siamese Transformers Chengyi Du Keyan Jin 32 0 0 14 Apr 2025
3D CoCa: Contrastive Learners are 3D Captioners Ting Huang Zhenru Zhang Yansen Wang Hao Tang 30 0 0 13 Apr 2025
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding Pedro Hermosilla Christian Stippel Leon Sick SSL 3DPC 79 0 0 09 Apr 2025
Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions He Zhu Quyu Kong Kechun Xu Xunlong Xia Bing Deng Jieping Ye R. Xiong Yansen Wang 34 0 0 07 Apr 2025
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness Haochen Wang Yucheng Zhao Tiancai Wang Haoqiang Fan Xinming Zhang Zhaoxiang Zhang 73 0 0 02 Apr 2025
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning Zhenyang Liu Yikai Wang Sixiao Zheng Tongying Pan Longfei Liang Yanwei Fu Xiangyang Xue LRM 54 0 0 30 Mar 2025
Empowering Large Language Models with 3D Situation Awareness Zhihao Yuan Yibo Peng Jinke Ren Yinghong Liao Yatong Han Chun-Mei Feng Hengshuang Zhao G. Li Shuguang Cui Zhen Li 51 0 0 29 Mar 2025
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D Jiahui Zhang Yurui Chen Yanpeng Zhou Yueming Xu Ze Huang ... Xinyue Cai G. Huang Xingyue Quan Hang Xu Li Zhang LRM 94 0 0 29 Mar 2025
Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments Yifan Xu V. Kamat Carol Menassa 51 0 0 29 Mar 2025
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis J. Huang Baoxiong Jia Yansen Wang Ziyu Zhu Xiongkun Linghu Qing Li Song-Chun Zhu Siyuan Huang 87 3 0 28 Mar 2025
OpenLex3D: A New Evaluation Benchmark for Open-Vocabulary 3D Scene Representations Christina Kassab Sacha Morin Martin Buchner Matías Mattamala Kumaraditya Gupta Abhinav Valada Liam Paull Maurice F. Fallon 3DV ELM 46 0 0 25 Mar 2025
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation Jiaxin Huang Runnan Chen Ziwen Li Zhengqing Gao Xiao He Yandong Guo Mingming Gong Tongliang Liu LRM 56 0 0 23 Mar 2025
Text-Driven 3D Lidar Place Recognition for Autonomous Driving Tianyi Shang Zhenyu Li Pengjie Xu ZhaoJun Deng Ruirui Zhang 42 0 0 23 Mar 2025
IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes Haochen Zhang Nader Zantout Pujith Kachana Ji Zhang Wenshan Wang VGen 56 0 0 20 Mar 2025
Universal Scene Graph Generation Shengqiong Wu Hao Fei Tat-Seng Chua 41 0 0 19 Mar 2025
HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding Jiahe Zhao Ruibing Hou Zejie Tian Hong Chang Shiguang Shan 45 0 0 17 Mar 2025
3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o Dingning Liu Cheng Wang Peng Gao Renrui Zhang Xinzhu Ma Yuan Meng Zhihui Wang LRM 49 0 0 17 Mar 2025
MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs Erik Daxberger Nina Wenzel David Griffiths Haiming Gang Justin Lazarow ... Kai Kang Marcin Eichner Yuqing Yang Afshin Dehghan Peter Grasch 77 3 0 17 Mar 2025
DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering Jingzhou Luo Yong-Jin Liu Weixing Chen Zhen Li Yansen Wang G. Li Liang Lin 67 2 0 05 Mar 2025
CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework Yanlong Xu Haoxuan Qu Jiaheng Liu Wenxiao Zhang Xun Yang 162 0 0 04 Mar 2025
Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning Hanxun Yu Wentong Li Song Wang Jintai Chen Jianke Zhu 3DV LRM 83 3 0 01 Mar 2025
ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding Qihang Peng Henry Zheng Gao Huang 3DPC 84 0 0 26 Feb 2025
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning Weitai Kang Haifeng Huang Yuzhang Shang Mubarak Shah Yan Yan 46 7 0 21 Feb 2025
Evolving Symbolic 3D Visual Grounder with Weakly Supervised Reflection Boyu Mi Hanqing Wang Tai Wang Yilun Chen Jiangmiao Pang 74 0 0 21 Feb 2025
CrossOver: 3D Scene Cross-Modal Alignment S. Sarkar O. Mikšík Marc Pollefeys Daniel Barath Iro Armeni 3DPC 78 0 0 20 Feb 2025
Hypo3D: Exploring Hypothetical Reasoning in 3D Ye Mao Weixun Luo Junpeng Jing Anlan Qiu K. Mikolajczyk 70 0 0 02 Feb 2025
Lifting by Gaussians: A Simple, Fast and Flexible Method for 3D Instance Segmentation Rohan Chacko Nicolai Haeni Eldar Khaliullin Lin Sun Douglas Lee 3DGS 46 1 0 31 Jan 2025
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring Xinyi Wang Na Zhao Zhiyuan Han Dan Guo Xun Yang 48 1 0 17 Jan 2025
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models Zhangyang Qi Zhixiong Zhang Ye Fang Jiaqi Wang Hengshuang Zhao 86 7 0 02 Jan 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 55 4 0 31 Dec 2024
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences Hongyan Zhi Peihao Chen Junyan Li Shuailei Ma Xinyu Sun Tianhang Xiang Yinjie Lei Mingkui Tan Chuang Gan 80 3 0 02 Dec 2024
LidaRefer: Outdoor 3D Visual Grounding for Autonomous Driving with Transformers Yeong-Seung Baek Heung-Seon Oh 31 0 0 07 Nov 2024
VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation Haochen Zhang Nader Zantout Pujith Kachana Zongyuan Wu Ji Zhang Wenshan Wang 3DV LM&Ro 43 5 0 05 Nov 2024
The Future of Intelligent Healthcare: A Systematic Analysis and Discussion on the Integration and Impact of Robots Using Large Language Models for Healthcare Souren Pashangpour Goldie Nejat LM&MA 50 7 0 05 Nov 2024
Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention Haomeng Zhang Chiao-An Yang Raymond A. Yeh 41 1 0 29 Oct 2024
Joint Top-Down and Bottom-Up Frameworks for 3D Visual Grounding Yang Liu Daizong Liu Wei Hu 3DPC 29 1 0 21 Oct 2024
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding Runsen Xu Zhiwei Huang Tai Wang Yuxiao Chen Jiangmiao Pang Dahua Lin VGen 44 11 0 17 Oct 2024
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation Xuexun Liu Xiaoxu Xu Jinlong Li Qiudan Zhang Xu Wang N. Sebe Lin Ma 42 0 0 17 Oct 2024
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators Rasoul Shafipour David Harrison Maxwell Horton Jeffrey Marker Houman Bedayat Sachin Mehta Mohammad Rastegari Mahyar Najibi Saman Naderiparizi MQ 57 0 0 14 Oct 2024