3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V

3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V

15 December 2023

Xiaoshui Huang

Papers citing "3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V"

17 / 17 papers shown

Title
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes Zehan Wang Haifeng Huang Yang Zhao Ziang Zhang Zhou Zhao 45 66 0 17 Aug 2023
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding Le Xue Ning Yu Shu Zhen Zhang Artemis Panagopoulou Junnan Li ... Jiajun Wu Caiming Xiong Ran Xu Juan Carlos Niebles Silvio Savarese 69 118 0 14 May 2023
Personalize Segment Anything Model with One Shot Renrui Zhang Zhengkai Jiang Ziyu Guo Shilin Yan Junting Pan Xianzheng Ma Hao Dong Peng Gao Hongsheng Li MLLM VLM 86 212 0 04 May 2023
ConceptFusion: Open-set Multimodal 3D Mapping Krishna Murthy Jatavallabhula Ali Kuwajerwala Qiao Gu Mohd. Omama Tao Chen ... Celso Miguel de Melo Madhava Krishna Liam Paull Florian Shkurti Antonio Torralba 48 235 0 14 Feb 2023
Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning? Runpei Dong Zekun Qi Linfeng Zhang Junbo Zhang Jian‐Yuan Sun Zheng Ge Li Yi Kaisheng Ma ViT 3DPC 45 85 0 16 Dec 2022
Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders Renrui Zhang Liuhui Wang Yu Qiao Peng Gao Hongsheng Li 3DPC 65 127 0 13 Dec 2022
Images Speak in Images: A Generalist Painter for In-Context Visual Learning Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang VLM MLLM 84 249 0 05 Dec 2022
Visual Prompt Tuning Menglin Jia Luming Tang Bor-Chun Chen Claire Cardie Serge Belongie Bharath Hariharan Ser-Nam Lim VLM VPVLM 94 1,576 0 23 Mar 2022
GPU optimization of the 3D Scale-invariant Feature Transform Algorithm and a Novel BRIEF-inspired 3D Fast Descriptor J. Carluer L. Chauvin Jie Luo W. Wells Ines P. Machado R. Harmouche Matthew Toews 27 2 0 19 Dec 2021
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 271 222 0 24 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 438 2,340 0 02 Sep 2021
Image2Point: 3D Point-Cloud Understanding with 2D Image Pretrained Models Chenfeng Xu Shijia Yang Tomer Galanti Bichen Wu Xiangyu Yue Bohan Zhai Wei Zhan Peter Vajda Kurt Keutzer Masayoshi Tomizuka 3DPC 39 53 0 08 Jun 2021
P2-Net: Joint Description and Detection of Local Features for Pixel and Point Matching Bing Wang Changhao Chen Zhaopeng Cui Jie Qin Chris Xiaoxuan Lu ... Peijun Zhao Zhenchao Dong Fan Zhu Niki Trigoni Andrew Markham 3DPC 3DV 64 50 0 01 Mar 2021
Instant 3D Object Tracking with Applications in Augmented Reality Adel Ahmadyan Tingbo Hou Jianing Wei Liangkai Zhang Artsiom Ablavatski Matthias Grundmann 3DH 16 21 0 23 Jun 2020
How Can We Know What Language Models Know? Zhengbao Jiang Frank F. Xu Jun Araki Graham Neubig KELM 91 1,387 0 28 Nov 2019
2D3D-MatchNet: Learning to Match Keypoints Across 2D Image and 3D Point Cloud Mengdan Feng Sixing Hu M. Ang Gim Hee Lee 3DPC 3DV 60 119 0 22 Apr 2019
Multimodal Machine Learning: A Survey and Taxonomy T. Baltrušaitis Chaitanya Ahuja Louis-Philippe Morency 64 2,890 0 26 May 2017