Title
OpenFusion++: An Open-vocabulary Real-time Scene Understanding System Xiaofeng Jin Matteo Frosi Matteo Matteucci 148 0 0 27 Apr 2025
SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models Nader Zantout Haochen Zhang Pujith Kachana J. Qiu Ji Zhang Wenshan Wang LM&Ro LRM 141 0 0 25 Apr 2025
ForesightNav: Learning Scene Imagination for Efficient Exploration Hardik Shah Jiaxu Xing Nico Messikommer Boyang Sun Marc Pollefeys Davide Scaramuzza 82 0 0 22 Apr 2025
FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment Sebastián Barbas Laina Simon Boche Sotiris Papatheodorou Simon Schaefer Jaehyung Jung Stefan Leutenegger 49 0 0 11 Apr 2025
ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis Yun Chang Leonor Fermoselle Duy Ta Bernadette Bucher Luca Carlone Jiuguang Wang 35 0 0 09 Apr 2025
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis J. Huang Baoxiong Jia Y. Wang Ziyu Zhu Xiongkun Linghu Qing Li Song-Chun Zhu Siyuan Huang 84 3 0 28 Mar 2025
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding Jinlong Li Cristiano Saltori Fabio Poiesi N. Sebe 162 0 0 20 Mar 2025
Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter Kechun Xu Xunlong Xia Kaixuan Wang Yifei Yang Yunxuan Mao Bing Deng R. Xiong Y. Wang OffRL 66 0 0 12 Mar 2025
Bayesian Fields: Task-driven Open-Set Semantic Gaussian Splatting Dominic Maggio Luca Carlone 136 0 0 07 Mar 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Mohit Bansal Parisa Kordjamshidi LRM 63 18 0 31 Dec 2024
TB-HSU: Hierarchical 3D Scene Understanding with Contextual Affordances Wenting Xu Viorela Ila Luping Zhou Craig T. Jin 64 0 0 07 Dec 2024
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation Zhaochong An Guolei Sun Yun Liu Runjia Li Min Wu Ming-Ming Cheng Ender Konukoglu Serge J. Belongie 64 4 0 29 Oct 2024
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features Makram Chahine Alex Quach Alaa Maalouf T. Wang Daniela Rus 21 0 0 16 Oct 2024
LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty Joey Wilson Ruihan Xu Yile Sun Parker Ewen Minghan Zhu Kira Barton Maani Ghaffari 36 0 0 15 Oct 2024
Search3D: Hierarchical Open-Vocabulary 3D Segmentation Ayca Takmaz Alexandros Delitzas R. Sumner Francis Engelmann Johanna Wald Federico Tombari 75 11 0 27 Sep 2024
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 128 30 0 26 Sep 2024
SAFER-Splat: A Control Barrier Function for Safe Navigation with Online Gaussian Splatting Maps Timothy Chen Aiden Swann Javier Yu O. Shorinwa Riku Murai Monroe Kennedy III Mac Schwager 3DGS 29 2 0 15 Sep 2024
Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant Guofeng Mei Luigi Riz Yiming Wang Fabio Poiesi ISeg VLM 59 3 0 20 Aug 2024
LoopSparseGS: Loop Based Sparse-View Friendly Gaussian Splatting Zhe Huang Guibiao Liao Yongcai Wang Kanglin Liu Deying Li Lei Wang 3DGS 45 4 0 01 Aug 2024
Answerability Fields: Answerable Location Estimation via Diffusion Models Daich Azuma Taiki Miyanishi Shuhei Kurita Koya Sakamoto M. Kawanabe DiffM 48 0 0 26 Jul 2024
CLOVER: Context-aware Long-term Object Viewpoint- and Environment- Invariant Representation Learning Dongmyeong Lee Amanda Adkins Joydeep Biswas 42 0 0 12 Jul 2024
LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control Delin Qu Qizhi Chen Pingrui Zhang Xianqiang Gao Bin Zhao Bin Zhao Dong Wang Xuelong Li AI4CE 39 7 0 23 Jun 2024
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images Han-Hung Lee Yiming Zhang Angel X. Chang 3DPC 41 3 0 17 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 74 42 0 23 May 2024
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding Guibiao Liao Jiankun Li Zhenyu Bao Xiaoqing Ye Jingdong Wang Qing Li Kanglin Liu 3DGS 43 14 0 22 Apr 2024
Clio: Real-time Task-Driven Open-Set 3D Scene Graphs Dominic Maggio Yun Chang Nathan Hughes Matthew Trang Dan Griffith Carlyn Dougherty Eric Cristofalo Lukas Schmid Luca Carlone 3DV 38 32 0 21 Apr 2024
O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation Muer Tie Julong Wei Zhengjun Wang Ke Wu Shansuai Yuan Kaizhao Zhang Jie Jia Jieru Zhao Zhongxue Gan Wenchao Ding 40 7 0 10 Apr 2024
Physical Property Understanding from Language-Embedded Feature Fields Albert J. Zhai Yuan Shen Emily Y. Chen Gloria X. Wang Xinlei Wang Sheng Wang Kaiyu Guan Shenlong Wang 33 13 0 05 Apr 2024
Segment Any 3D Object with Language Seungjun Lee Yuyang Zhao Gim Hee Lee 41 1 0 02 Apr 2024
Multiway Point Cloud Mosaicking with Diffusion and Global Optimization Shengze Jin Iro Armeni Marc Pollefeys Dániel Baráth 38 7 0 30 Mar 2024
Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows Yuting Yang Andrea Merlina Weijia Song Tiancheng Yuan Ken Birman Roman Vitenberg 41 0 0 27 Feb 2024
Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships Sebastian Koch Narunas Vaskevicius Mirco Colosi Pedro Hermosilla Timo Ropinski 3DPC 28 25 0 19 Feb 2024
Verifiably Following Complex Robot Instructions with Foundation Models Benedict Quartey Eric Rosen Stefanie Tellex G. Konidaris LM&Ro 41 11 0 18 Feb 2024
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion Shoubin Yu Jaehong Yoon Mohit Bansal 77 4 0 08 Feb 2024
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images Antonín Vobecký Oriane Siméoni David Hurych Spyros Gidaris Andrei Bursuc Patrick Pérez Josef Sivic 40 33 0 17 Jan 2024
ODIN: A Single Model for 2D and 3D Segmentation Ayush Jain Pushkal Katara N. Gkanatsios Adam W. Harley Gabriel H. Sarch Kriti Aggarwal Vishrav Chaudhary Katerina Fragkiadaki 3DPC 42 7 0 04 Jan 2024
Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding Guofeng Mei Luigi Riz Yiming Wang Fabio Poiesi 3DPC 27 6 0 04 Dec 2023
Segment Any 3D Gaussians Jiazhong Cen Jiemin Fang Chen Yang Lingxi Xie Xiaopeng Zhang Wei Shen Qi Tian 3DGS 68 70 0 01 Dec 2023
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding Jin-Chuan Shi Miao Wang Hao-Bin Duan Shao-Hua Guan 3DGS 40 84 0 30 Nov 2023
On Bringing Robots Home Nur Muhammad (Mahi) Shafiullah Anant Rai Haritheja Etukuru Yiqian Liu Ishan Misra Soumith Chintala Lerrel Pinto 33 76 0 27 Nov 2023
S4C: Self-Supervised Semantic Scene Completion with Neural Fields Adrian Hayler Felix Wimbauer Dominik Muhle Christian Rupprecht Daniel Cremers 21 22 0 11 Oct 2023
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning Yuanyi Zhong Alihusein Kuwajerwala Sacha Morin Krishna Murthy Jatavallabhula Bipasha Sen ... Celso Miguel de Melo Joshua B. Tenenbaum Antonio Torralba Florian Shkurti Liam Paull LM&Ro 36 166 0 28 Sep 2023
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent Jianing Yang Xuweiyi Chen Shengyi Qian Nikhil Madaan Madhavan Iyengar David Fouhey Joyce Chai LM&Ro LLMAG 34 84 0 21 Sep 2023
HomeRobot: Open-Vocabulary Mobile Manipulation Sriram Yenamandra A. Ramachandran Karmesh Yadav Austin S. Wang Mukul Khanna ... Devendra Singh Chaplot Dhruv Batra Roozbeh Mottaghi Yonatan Bisk Chris Paxton LM&Ro 39 79 0 20 Jun 2023
VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations Nikolaos Tsagkas Oisin Mac Aodha Chris Xiaoxuan Lu VLM 24 25 0 21 May 2023
OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding Minghua Liu Ruoxi Shi Kaiming Kuang Yinhao Zhu Xuanlin Li Shizhong Han H. Cai Fatih Porikli Hao Su 3DPC 36 116 0 18 May 2023
RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding Jihan Yang Runyu Ding Weipeng Deng Zhe Wang Xiaojuan Qi 20 61 0 03 Apr 2023
UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes Dávid Rozenberszki Or Litany Angela Dai 3DPC ISeg 34 23 0 25 Mar 2023
PØDA: Prompt-driven Zero-shot Domain Adaptation Mohammad Fahes Tuan-Hung Vu Andrei Bursuc Patrick Pérez Raoul de Charette VLM 38 45 0 06 Dec 2022
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 156 343 0 11 Oct 2022