CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes

CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes

12 April 2023

Alexandros Delitzas

Sotiris Anagnostidis

Gregor Bachmann

Papers citing "CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes"

13 / 13 papers shown

Title
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models Shun Taguchi Hideki Deguchi Takumi Hamazaki Hiroyuki Sakai ReLM LRM 54 0 0 08 May 2025
FG-CLIP: Fine-Grained Visual and Textual Alignment Chunyu Xie Bin Wang Fanjing Kong Jincheng Li Dawei Liang Gengshen Zhang Dawei Leng Yuhui Yin CLIP VLM 66 0 0 08 May 2025
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning Zhenyang Liu Yikai Wang Sixiao Zheng Tongying Pan Longfei Liang Yanwei Fu Xiangyang Xue LRM 54 0 0 30 Mar 2025
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion Marco Mistretta Alberto Baldrati Lorenzo Agnolucci Marco Bertini Andrew D. Bagdanov CLIP VLM 109 2 0 06 Feb 2025
Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning Zhong Peng Yishi Xu Gerong Wang Wenchao Chen Bo Chen Jing Zhang CoGe 47 0 0 13 Jan 2025
QueryCAD: Grounded Question Answering for CAD Models Claudius Kienle Benjamin Alt Darko Katic Rainer Jäkel Jan Peters 38 2 0 13 Sep 2024
Open-Ended 3D Point Cloud Instance Segmentation Phuc D. A. Nguyen Minh Luu Anh Tran Cuong Pham Khoi Nguyen 3DPC 56 1 0 21 Aug 2024
LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding Senqiao Yang Jiaming Liu Ray Zhang Mingjie Pan Zoey Guo Xiaoqi Li Zehui Chen Peng Gao Yandong Guo Shanghang Zhang 3DV 26 59 0 21 Dec 2023
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts Mingsheng Li Xin Chen C. Zhang Sijin Chen Erik Cambria Fukun Yin Gang Yu Tao Chen 38 24 0 17 Dec 2023
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning Sijin Chen Xin Chen C. Zhang Mingsheng Li Gang Yu Hao Fei Erik Cambria Jiayuan Fan Tao Chen MLLM 31 83 0 30 Nov 2023
Variational Information Pursuit with Large Language and Multimodal Models for Interpretable Predictions Kwan Ho Ryan Chan Aditya Chattopadhyay B. Haeffele René Vidal 42 0 0 24 Aug 2023
Self-Supervised Pretraining of 3D Features on any Point-Cloud Zaiwei Zhang Rohit Girdhar Armand Joulin Ishan Misra 3DPC 137 267 0 07 Jan 2021
PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding Saining Xie Jiatao Gu Demi Guo C. Qi Leonidas J. Guibas Or Litany 3DPC 141 624 0 21 Jul 2020