Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes

Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes

4 June 2023

Alexandros Delitzas

Sotiris Anagnostidis

Gregor Bachmann

Papers citing "Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes"

17 / 17 papers shown

Title
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning Zhenyang Liu Yikai Wang Sixiao Zheng Tongying Pan Longfei Liang Yanwei Fu Xiangyang Xue LRM 54 0 0 30 Mar 2025
Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces Chenyangguang Zhang Alexandros Delitzas Fangjinhua Wang Ruida Zhang Xiangyang Ji Marc Pollefeys Francis Engelmann 3DV 3DPC 49 4 0 24 Mar 2025
DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering Jingzhou Luo Yong-Jin Liu Weixing Chen Zhen Li Yansen Wang G. Li Liang Lin 67 2 0 05 Mar 2025
Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography Yuexi Du John Onofrey Nicha Dvornek VLM 55 1 0 26 Sep 2024
Open-Ended 3D Point Cloud Instance Segmentation Phuc D. A. Nguyen Minh Luu Anh Tran Cuong Pham Khoi Nguyen 3DPC 56 1 0 21 Aug 2024
3D Vision and Language Pretraining with Large-Scale Synthetic Data Dejie Yang Zhu Xu Wentao Mo Qingchao Chen Siyuan Huang Yang Liu 24 5 0 08 Jul 2024
Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation Linlong Fan Ye Huang Yanqi Ge Wen Li Lixin Duan 3DPC 27 1 0 04 Jul 2024
Situational Awareness Matters in 3D Vision Language Reasoning Yunze Man Liang-Yan Gui Yu-Xiong Wang 43 14 0 11 Jun 2024
Grounded 3D-LLM with Referent Tokens Yilun Chen Shuai Yang Haifeng Huang Tai Wang Ruiyuan Lyu Runsen Xu Dahua Lin Jiangmiao Pang 57 24 0 16 May 2024
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models Xianzheng Ma Yash Bhalgat Brandon Smart Shuai Chen Xinghui Li ... Matthias Nießner Ian D Reid Angel X. Chang Iro Laina V. Prisacariu LRM 35 13 0 16 May 2024
Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA Wentao Mo Yang Liu 24 6 0 24 Feb 2024
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning Sijin Chen Xin Chen C. Zhang Mingsheng Li Gang Yu Hao Fei Erik Cambria Jiayuan Fan Tao Chen MLLM 29 83 0 30 Nov 2023
Frozen Transformers in Language Models Are Effective Visual Encoder Layers Ziqi Pang Ziyang Xie Yunze Man Yu-xiong Wang 53 25 0 19 Oct 2023
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP Junbo Zhang Runpei Dong Kaisheng Ma CLIP VLM 32 77 0 08 Mar 2023
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 175 437 0 04 Dec 2021
Self-Supervised Pretraining of 3D Features on any Point-Cloud Zaiwei Zhang Rohit Girdhar Armand Joulin Ishan Misra 3DPC 137 268 0 07 Jan 2021
PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding Saining Xie Jiatao Gu Demi Guo C. Qi Leonidas J. Guibas Or Litany 3DPC 141 624 0 21 Jul 2020