Data-Efficient 3D Visual Grounding via Order-Aware Referring

25 March 2024

Papers citing "Data-Efficient 3D Visual Grounding via Order-Aware Referring"

46 / 46 papers shown

Title
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models Xiaoyu Zhu Hao Zhou Pengfei Xing Long Zhao Hao Xu Junwei Liang Alex Hauptmann Ting Liu Andrew C. Gallagher DiffM 103 4 0 18 Jul 2024
CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding Eslam Mohamed Bakr Mohamed Ayman Mahmoud Ahmed Habib Slim Mohamed Elhoseiny LRM 46 12 0 10 Oct 2023
Multi3DRefer: Grounding Text Description to Multiple 3D Objects Yiming Zhang ZeMing Gong Angel X. Chang 74 74 0 11 Sep 2023
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding Zehan Wang Haifeng Huang Yang Zhao Lin Li Xize Cheng Yichen Zhu Aoxiong Yin Zhou Zhao 3DPC 53 20 0 25 Jul 2023
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs Yang Zhao Zhijie Lin Daquan Zhou Zilong Huang Jiashi Feng Bingyi Kang MLLM 73 110 0 17 Jul 2023
OpenMask3D: Open-Vocabulary 3D Instance Segmentation Ayca Takmaz Elisabetta Fedele R. Sumner Marc Pollefeys F. Tombari Francis Engelmann ISeg VLM 62 171 0 23 Jun 2023
Fine-Grained Visual Prompting Lingfeng Yang Yueze Wang Xiang Li Xinlong Wang Jian Yang ObjD VLM 74 65 0 07 Jun 2023
What does CLIP know about a red circle? Visual prompt engineering for VLMs Aleksandar Shtedritski Christian Rupprecht Andrea Vedaldi VLM MLLM 83 154 0 13 Apr 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 315 7,274 0 05 Apr 2023
NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations Joy Hsu Jiayuan Mao Jiajun Wu PINN 60 51 0 23 Mar 2023
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models Junjie Ye Xuanting Chen Nuo Xu Can Zu Zekai Shao ... Jie Zhou Siming Chen Tao Gui Qi Zhang Xuanjing Huang ELM 59 329 0 18 Mar 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 174 1,964 0 09 Mar 2023
Directed Diffusion: Direct Control of Object Placement through Attention Guidance W. Ma J. P. Lewis Avisek Lahiri Thomas Leung W. Kleijn DiffM 54 67 0 25 Feb 2023
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes Ahmed Abdelreheem Kyle Olszewski Hsin-Ying Lee Peter Wonka Panos Achlioptas 3DPC 56 28 0 12 Dec 2022
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding Eslam Mohamed Bakr Yasmeen Alsaedy Mohamed Elhoseiny 3DPC 46 43 0 25 Nov 2022
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev 77 84 0 17 Nov 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 82 66 0 29 Sep 2022
3D Instances as 1D Kernels Yizhe Wu Min Shi Shuaiyuan Du Hao Lu Zhiguo Cao Weicai Zhong ISeg 3DPC 59 43 0 15 Jul 2022
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases Zhihao Yuan Xu Yan Zhuo Li Xuhao Li Yao Guo Shuguang Cui Zhen Li 52 17 0 05 Jul 2022
GLIPv2: Unifying Localization and Vision-Language Understanding Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Lei Li Jianfeng Gao ObjD VLM 83 298 0 12 Jun 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 499 4,409 0 24 May 2022
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection Jun-Bin Luo Jiahui Fu Xianghao Kong Chen Gao Haibing Ren Hao Shen Huaxia Xia Si Liu 63 91 0 13 Apr 2022
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension Sanjay Subramanian William Merrill Trevor Darrell Matt Gardner Sameer Singh Anna Rohrbach ObjD 98 127 0 12 Apr 2022
Multi-View Transformer for 3D Visual Grounding Shijia Huang Yilun Chen Jiaya Jia Liwei Wang 67 124 0 05 Apr 2022
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Hao Zhang Feng Li Shilong Liu Lei Zhang Hang Su Jun Zhu L. Ni H. Shum ViT 159 1,435 0 07 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 770 9,351 0 28 Jan 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 398 15,486 0 20 Dec 2021
Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds Ayush Jain N. Gkanatsios Ishita Mediratta Katerina Fragkiadaki ObjD 55 106 0 16 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 118 1,060 0 07 Dec 2021
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 281 222 0 24 Sep 2021
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding Dailan He Yusheng Zhao Junyu Luo Tianrui Hui Shaofei Huang Aixi Zhang Si Liu ViT 43 95 0 05 Aug 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 222 5,513 0 07 Jul 2021
SAT: 2D Semantics Assisted Training for 3D Visual Grounding Zhengyuan Yang Songyang Zhang Liwei Wang Jiebo Luo 3DPC 77 124 0 24 May 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 167 881 0 26 Apr 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 93 132 0 01 Mar 2021
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 377 13,025 0 26 May 2020
PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation Li Jiang Hengshuang Zhao Shaoshuai Shi Shu Liu Chi-Wing Fu Jiaya Jia 3DPC 80 436 0 03 Apr 2020
ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language Dave Zhenyu Chen Angel X. Chang Matthias Nießner 3DPC 79 369 0 18 Dec 2019
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 449 42,393 0 03 Dec 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 589 24,422 0 26 Jul 2019
Deep Hough Voting for 3D Object Detection in Point Clouds C. Qi Or Litany Kaiming He Leonidas Guibas 3DPC 103 1,287 0 21 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.7K 94,729 0 11 Oct 2018
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton Van Den Hengel LM&Ro 95 1,306 0 20 Nov 2017
PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space C. Qi L. Yi Hao Su Leonidas Guibas 3DPC 3DV 341 11,094 0 07 Jun 2017
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes Angela Dai Angel X. Chang Manolis Savva Maciej Halber Thomas Funkhouser Matthias Nießner 3DPC 3DV 464 4,057 0 14 Feb 2017
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.7K 150,006 0 22 Dec 2014