v1v2 (latest)

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes

10 March 2022

ArXiv (abs)PDF HTML Github (15★)

Papers citing "MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes"

34 / 34 papers shown

Title
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 214 53 0 26 Sep 2024
EventHallusion: Diagnosing Event Hallucinations in Video LLMs Jiacheng Zhang Yang Jiao Shaoxiang Chen Jingjing Chen Zhiyu Tan Hao Li Jingjing Chen MLLM 95 23 0 25 Sep 2024
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding Yang Jiao Zequn Jie Jingjing Chen Lin Ma Yu-Gang Jiang OOD 57 8 0 10 Mar 2022
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation Yang Jiao Zequn Jie Weixin Luo Jingjing Chen Yu-Gang Jiang Xiaolin K. Wei Lin Ma 40 25 0 09 Oct 2021
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding Dailan He Yusheng Zhao Junyu Luo Tianrui Hui Shaofei Huang Aixi Zhang Si Liu ViT 51 95 0 05 Aug 2021
Step-Wise Hierarchical Alignment Network for Image-Text Matching Zhong Ji Kexin Chen Haoran Wang 58 94 0 11 Jun 2021
SAT: 2D Semantics Assisted Training for 3D Visual Grounding Zhengyuan Yang Songyang Zhang Liwei Wang Jiebo Luo 3DPC 81 126 0 24 May 2021
SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences Shun-cheng Wu Johanna Wald Keisuke Tateno Nassir Navab Federico Tombari 3DPC 54 161 0 27 Mar 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 104 135 0 01 Mar 2021
Scan2Cap: Context-aware Dense Captioning in RGB-D Scans Dave Zhenyu Chen A. Gholami Matthias Nießner Angel X. Chang 3DPC 154 176 0 03 Dec 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 83 102 0 28 Jul 2020
Towards Deeper Graph Neural Networks with Differentiable Group Normalization Kaixiong Zhou Xiao Huang Yuening Li Daochen Zha Rui Chen Helen Zhou 130 205 0 12 Jun 2020
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions Johanna Wald Helisa Dhamo Nassir Navab Federico Tombari 3DV 3DPC 71 219 0 08 Apr 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 119 513 0 31 Mar 2020
ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language Dave Zhenyu Chen Angel X. Chang Matthias Nießner 3DPC 91 378 0 18 Dec 2019
3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera Iro Armeni Zhi-Yang He JunYoung Gwak Amir Zamir Martin Fischer Jitendra Malik Silvio Savarese 3DV 3DPC 103 350 0 06 Oct 2019
Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View Deli Chen Yankai Lin Wei Li Peng Li Jie Zhou Xu Sun 94 1,113 0 07 Sep 2019
Deep Hough Voting for 3D Object Detection in Point Clouds C. Qi Or Litany Kaiming He Leonidas Guibas 3DPC 119 1,290 0 21 Apr 2019
Habitat: A Platform for Embodied AI Research Manolis Savva Abhishek Kadian Oleksandr Maksymets Yili Zhao Erik Wijmans ... Jia-Wei Liu V. Koltun Jitendra Malik Devi Parikh Dhruv Batra LM&Ro 126 1,423 0 02 Apr 2019
Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh In So Kweon 54 84 0 14 Mar 2019
Auto-Encoding Scene Graphs for Image Captioning Xu Yang Kaihua Tang Hanwang Zhang Jianfei Cai 165 699 0 06 Dec 2018
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 82 835 0 19 Sep 2018
Gibson Env: Real-World Perception for Embodied Agents F. Xia Amir Zamir Zhi-Yang He Alexander Sax Jitendra Malik Silvio Savarese AI4CE LM&Ro 79 829 0 31 Aug 2018
Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning Jingwen Wang Wenhao Jiang Lin Ma Wen Liu Yong-mei Xu 81 206 0 31 Mar 2018
Dynamic Graph CNN for Learning on Point Clouds Yue Wang Yongbin Sun Ziwei Liu Sanjay E. Sarma M. Bronstein Justin Solomon GNN 3DPC 260 6,177 0 24 Jan 2018
Grounding Referring Expressions in Images by Variational Context Hanwang Zhang Yulei Niu Shih-Fu Chang BDL ObjD 69 222 0 05 Dec 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 123 4,223 0 25 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 795 132,454 0 12 Jun 2017
PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space C. Qi L. Yi Hao Su Leonidas Guibas 3DPC 3DV 366 11,154 0 07 Jun 2017
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes Angela Dai Angel X. Chang Manolis Savva Maciej Halber Thomas Funkhouser Matthias Nießner 3DPC 3DV 502 4,084 0 14 Feb 2017
Dense Captioning with Joint Inference and Visual Context L. Yang K. Tang Jianchao Yang Li Li VLM 89 169 0 21 Nov 2016
Jointly Modeling Embedding and Translation to Bridge Video and Language Yingwei Pan Tao Mei Ting Yao Houqiang Li Y. Rui 83 534 0 07 May 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 2.1K 150,364 0 22 Dec 2014
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 300 4,511 0 20 Nov 2014