ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings

24 June 2022

Papers citing "ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings"

40 / 40 papers shown

Title
ApexNav: An Adaptive Exploration Strategy for Zero-Shot Object Navigation with Target-centric Semantic Fusion Mingjie Zhang Yuheng Du Chengkai Wu Jinni Zhou Zhenchao Qi Jun Ma Boyu Zhou 149 0 0 20 Apr 2025
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space Weichen Zhang Zile Zhou Zhiheng Zheng Chen Gao Jinqiang Cui Yongqian Li Xinlei Chen Xiao-Ping Zhang LRM 106 2 0 14 Mar 2025
WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation Dujun Nie Xianda Guo Yiqun Duan Ruijun Zhang Long Chen LM&Ro 202 3 0 04 Mar 2025
Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments Luca Barsellotti Roberto Bigazzi Marcella Cornia Lorenzo Baraldi Rita Cucchiara 159 1 0 20 Feb 2025
REGNav: Room Expert Guided Image-Goal Navigation Pengna Li Kangyi Wu Jingwen Fu Sanping Zhou 139 0 0 15 Feb 2025
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos Xinhao Liu Jiajian Li Yichen Jiang Niranjan Sujay Zhiyong Yang Juexiao Zhang John Abanes Jing Zhang Chen Feng 140 2 0 26 Nov 2024
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation Linqing Zhong Chen Gao Zihan Ding Yue Liao Si Liu Shifeng Zhang Xu Zhou Si Liu LRM 140 5 0 25 Nov 2024
iTeach: Interactive Teaching for Robot Perception using Mixed Reality Jishnu Jaykumar P Cole Salvato Vinaya Bomnale Jikai Wang Yu Xiang 79 0 0 01 Oct 2024
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 114 9 0 01 Nov 2023
Offline Visual Representation Learning for Embodied Navigation Karmesh Yadav Ram Ramrakhya Arjun Majumdar Vincent-Pierre Berges Sachit Kuhar Dhruv Batra Alexei Baevski Oleksandr Maksymets OffRL SSL 78 75 0 27 Apr 2022
Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale Ram Ramrakhya Eric Undersander Dhruv Batra Abhishek Das LM&Ro 103 116 0 07 Apr 2022
Stubborn: A Strong Baseline for Indoor Object Navigation Haokuan Luo Albert Yue Zhang-Wei Hong Pulkit Agrawal 63 42 0 14 Mar 2022
Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual Navigation Ziad Al-Halah Santhosh Kumar Ramakrishnan Kristen Grauman VLM 56 82 0 05 Feb 2022
Semi-Supervised Vision Transformers Zejia Weng Xitong Yang Ang Li Zuxuan Wu Yu-Gang Jiang ViT 49 41 0 22 Nov 2021
Combined Scaling for Zero-shot Transfer Learning Hieu H. Pham Zihang Dai Golnaz Ghiasi Kenji Kawaguchi Hanxiao Liu ... Yi-Ting Chen Minh-Thang Luong Yonghui Wu Mingxing Tan Quoc V. Le VLM 55 198 0 19 Nov 2021
Simple but Effective: CLIP Embeddings for Embodied AI Apoorv Khandelwal Luca Weihs Roozbeh Mottaghi Aniruddha Kembhavi VLM LM&Ro 66 226 0 18 Nov 2021
Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans Ainaz Eftekhar Alexander Sax Roman Bachmann Jitendra Malik Amir Zamir MedIm 74 299 0 11 Oct 2021
Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI Santhosh Kumar Ramakrishnan Aaron Gokaslan Erik Wijmans Oleksandr Maksymets Alexander Clegg ... Andrew Westbury Angel X. Chang Manolis Savva Yili Zhao Dhruv Batra 50 382 0 16 Sep 2021
Habitat 2.0: Training Home Assistants to Rearrange their Habitat Andrew Szot Alexander Clegg Eric Undersander Erik Wijmans Yili Zhao ... Z. Kira V. Koltun Jitendra Malik Manolis Savva Dhruv Batra LM&Ro 90 514 0 28 Jun 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 611 6,029 0 29 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 793 29,167 0 26 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 417 3,826 0 11 Feb 2021
Memory-Augmented Reinforcement Learning for Image-Goal Navigation Lina Mezghani Sainbayar Sukhbaatar Thibaut Lavril Oleksandr Maksymets Dhruv Batra Piotr Bojanowski Alahari Karteek 51 70 0 13 Jan 2021
SSCNav: Confidence-Aware Semantic Scene Completion for Visual Semantic Navigation Yiqing Liang Boyuan Chen Shuran Song 71 66 0 08 Dec 2020
BenchBot: Evaluating Robotics Research in Photorealistic 3D Simulation and on Real Robots Ben Talbot David Hall Haoyang Zhang S. Bista Rohan Smith Feras Dayoub Niko Sünderhauf 48 15 0 03 Aug 2020
Object Goal Navigation using Goal-Oriented Semantic Exploration Devendra Singh Chaplot Dhiraj Gandhi Abhinav Gupta Ruslan Salakhutdinov 87 513 0 01 Jul 2020
ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to Objects Dhruv Batra Aaron Gokaslan Aniruddha Kembhavi Oleksandr Maksymets Roozbeh Mottaghi Manolis Savva Alexander Toshev Erik Wijmans 47 254 0 23 Jun 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 342 42,299 0 03 Dec 2019
DD-PPO: Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames Erik Wijmans Abhishek Kadian Ari S. Morcos Stefan Lee Irfan Essa Devi Parikh Manolis Savva Dhruv Batra 78 475 0 01 Nov 2019
3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera Iro Armeni Zhi-Yang He JunYoung Gwak Amir Zamir Martin Fischer Jitendra Malik Silvio Savarese 3DV 3DPC 87 344 0 06 Oct 2019
Habitat: A Platform for Embodied AI Research Manolis Savva Abhishek Kadian Oleksandr Maksymets Yili Zhao Erik Wijmans ... Jia-Wei Liu V. Koltun Jitendra Malik Devi Parikh Dhruv Batra LM&Ro 99 1,401 0 02 Apr 2019
Gibson Env: Real-World Perception for Embodied Agents F. Xia Amir Zamir Zhi-Yang He Alexander Sax Jitendra Malik Silvio Savarese AI4CE LM&Ro 77 822 0 31 Aug 2018
On Evaluation of Embodied Navigation Agents Peter Anderson Angel X. Chang Devendra Singh Chaplot Alexey Dosovitskiy Saurabh Gupta ... Jana Kosecka Jitendra Malik Roozbeh Mottaghi Manolis Savva Amir Zamir 112 795 0 18 Jul 2018
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 278 10,253 0 10 Jul 2018
AI2-THOR: An Interactive 3D Environment for Visual AI Eric Kolve Roozbeh Mottaghi Winson Han Eli VanderBilt Luca Weihs ... Daniel Gordon Yuke Zhu Aniruddha Kembhavi Abhinav Gupta Ali Farhadi LM&Ro 54 1,096 0 14 Dec 2017
Matterport3D: Learning from RGB-D Data in Indoor Environments Angel X. Chang Angela Dai Thomas Funkhouser Maciej Halber Matthias Nießner Manolis Savva Shuran Song Andy Zeng Yinda Zhang 3DV 3DPC 155 1,893 0 18 Sep 2017
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 246 19,929 0 07 Oct 2016
Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning Yuke Zhu Roozbeh Mottaghi Eric Kolve Joseph J. Lim Abhinav Gupta Li Fei-Fei Ali Farhadi VGen 57 1,521 0 16 Sep 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 1.8K 193,426 0 10 Dec 2015
ShapeNet: An Information-Rich 3D Model Repository Angel X. Chang Thomas Funkhouser Leonidas Guibas Pat Hanrahan Qi-Xing Huang ... Shuran Song Hao Su Jianxiong Xiao L. Yi Feng Yu 3DV 118 5,508 0 09 Dec 2015