A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes

12 March 2024

Papers citing "A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes"

13 / 13 papers shown

Title
Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation X. Zhang Lu Zou Tao Lu Yuan Yao Zhangjin Huang Guoping Wang 3DPC 28 0 0 21 Apr 2025
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering Ting Yu Kunhao Fu Shuhui Wang Qingming Huang Jun Yu 41 0 0 12 Oct 2024
A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions Daizong Liu Yang Liu Wencan Huang Wei Hu LM&Ro 35 9 0 09 Jun 2024
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization Yongdong Luo Haojia Lin Xiawu Zheng Yigeng Jiang Fei Chao Jie Hu Guannan Jiang Songan Zhang Rongrong Ji 26 0 0 17 Apr 2024
TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes Bu Jin Yupeng Zheng Pengfei Li Weize Li Yuhang Zheng ... Kun Zhan Peng Jia Xiaoxiao Long Yilun Chen Hao Zhao 3DV 71 15 0 28 Mar 2024
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding Jiaming Chen Weihua Luo Ran Song Xiaolin K. Wei Lin Ma Wei Emma Zhang 3DV 40 6 0 22 Oct 2022
Contextual Modeling for 3D Dense Captioning on Point Clouds Yufeng Zhong Longdao Xu Jiebo Luo Lin Ma 44 15 0 08 Oct 2022
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 68 128 0 01 Mar 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 85 1,442 0 06 Dec 2016
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 255 36,362 0 25 Aug 2016
ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation Adam Paszke Abhishek Chaurasia Sangpil Kim Eugenio Culurciello SSeg 230 2,056 0 07 Jun 2016
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 294 75,800 0 18 May 2015