v1v2v3 (latest)

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

26 May 2023

Qi Wu

Papers citing "NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models"

50 / 58 papers shown

Title
VISTA: Generative Visual Imagination for Vision-and-Language Navigation Yanjia Huang Mingyang Wu Renjie Li Zhengzhong Tu LM&Ro 105 0 0 09 May 2025
Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation Junrong Yue Yanzhe Zhang Chuan Qin Jing Chen Xiaomin Lie Xinlei Yu Wenxin Zhang Zhendong Zhao 119 1 0 23 Apr 2025
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard Yifei Dong Fengyi Wu Qi He Heng Li Minghan Li ... Yuxuan Zhou Jingdong Sun Qi Dai Zhi-Qi Cheng Alexander G. Hauptmann LM&Ro 81 0 0 18 Mar 2025
Temporal Triplane Transformers as Occupancy World Models Haoran Xu Peixi Peng Guang Tan Yiqian Chang Yisen Zhao Yonghong Tian 158 1 0 10 Mar 2025
Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach A. H. Tan Angus Fung Haitong Wang G. Nejat 152 3 0 31 Jan 2025
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation Linqing Zhong Chen Gao Zihan Ding Yue Liao Si Liu Shifeng Zhang Xu Zhou Si Liu LRM 154 7 0 25 Nov 2024
CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation Jie Liu Pan Zhou Yingjun Du Ah-Hwee Tan Cees G. M. Snoek Jan-Jakob Sonke E. Gavves LLMAG 84 3 0 07 Nov 2024
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments Sangmim Song S. Kodagoda A. Gunatilake Marc G. Carmichael Karthick Thiyagarajan Jodi Martin LM&Ro 137 1 0 28 Oct 2024
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models Yue Zhang Zhiyang Xu Ying Shen Parisa Kordjamshidi Lifu Huang 114 8 0 04 Oct 2024
EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing Kaizhi Zheng Xiaotong Chen Xuehai He Jing Gu Linjie Li Zhengyuan Yang Kevin Qinghong Lin Jianfeng Wang Lijuan Wang Xin Eric Wang KELM DiffM 89 0 0 03 Oct 2024
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs Yanyuan Qiao Wenqi Lyu Hui Wang Zixu Wang Zerui Li Yuan Zhang Mingkui Tan Qi Wu LRM 81 6 0 27 Sep 2024
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation Quanting Xie So Yeon Min Tianyi Zhang Kedi Xu Aarav Bajaj Ruslan Salakhutdinov Matthew Johnson-Roberson Yonatan Bisk Matthew Johnson-Roberson Yonatan Bisk LM&Ro 95 11 0 26 Sep 2024
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images Zhecan Wang Junzhang Liu Chia-Wei Tang Hani Alomari Anushka Sivakumar ... Haoxuan You A. Ishmam Kai-Wei Chang Shih-Fu Chang Chris Thomas CoGe VLM 136 2 0 19 Sep 2024
Intelligent LiDAR Navigation: Leveraging External Information and Semantic Maps with LLM as Copilot Fujing Xie Jiajie Zhang Sören Schwertfeger 72 1 0 13 Sep 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 120 27 0 12 Mar 2024
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 131 10 0 01 Nov 2023
Learning Navigational Visual Representations with Semantic Map Supervision Yicong Hong Yang Zhou Ruiyi Zhang Franck Dernoncourt Trung Bui Stephen Gould Hao Tan SSL 56 22 0 23 Jul 2023
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation Jialu Li Joey Tianyi Zhou DiffM 90 53 0 30 May 2023
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face Yongliang Shen Kaitao Song Xu Tan Dongsheng Li Weiming Lu Yueting Zhuang MLLM 122 908 0 30 Mar 2023
ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions Deyao Zhu Jun Chen Kilichbek Haydarov Xiaoqian Shen Wenxuan Zhang Mohamed Elhoseiny MLLM 85 104 0 12 Mar 2023
ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation KAI-QING Zhou Kai Zheng Connor Pryor Yilin Shen Hongxia Jin Lise Getoor Xinze Wang 97 118 0 30 Jan 2023
CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation Vishnu Sashank Dorbala Gunnar Sigurdsson Robinson Piramuthu Jesse Thomason Gaurav Sukhatme LM&Ro 84 56 0 30 Nov 2022
What Language Model to Train if You Have One Million GPU Hours? Teven Le Scao Thomas Wang Daniel Hesslow Lucile Saulnier Stas Bekman ... Lintang Sutawika Jaesung Tae Zheng-Xin Yong Julien Launay Iz Beltagy MoE AI4CE 277 109 0 27 Oct 2022
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 241 367 0 11 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 434 2,955 0 06 Oct 2022
Target-Driven Structured Transformer Planner for Vision-Language Navigation Yusheng Zhao Jinyu Chen Chen Gao Wenguan Wang Lirong Yang Haibing Ren Huaxia Xia Si Liu LM&Ro 78 60 0 19 Jul 2022
ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings Arjun Majumdar Gunjan Aggarwal Bhavika Devnani Judy Hoffman Dhruv Batra LM&Ro 196 162 0 24 Jun 2022
Emergent Abilities of Large Language Models Jason W. Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph ... Tatsunori Hashimoto Oriol Vinyals Percy Liang J. Dean W. Fedus ELM ReLM LRM 286 2,511 0 15 Jun 2022
MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning Ehud D. Karpas Omri Abend Yonatan Belinkov Barak Lenz Opher Lieber ... Erez Schwartz Gal Shachaf Shai Shalev-Shwartz Amnon Shashua Moshe Tenenholtz LLMAG 65 70 0 01 May 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 515 6,293 0 05 Apr 2022
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Michael Ahn Anthony Brohan Noah Brown Yevgen Chebotar Omar Cortes ... Ted Xiao Peng Xu Sichun Xu Mengyuan Yan Andy Zeng LM&Ro 192 1,984 0 04 Apr 2022
Counterfactual Cycle-Consistent Learning for Instruction Following and Generation in Vision-Language Navigation Hongru Wang Wei Liang Jianbing Shen Luc Van Gool Wenguan Wang 79 57 0 30 Mar 2022
EnvEdit: Environment Editing for Vision-and-Language Navigation Jialu Li Hao Tan Joey Tianyi Zhou 99 83 0 29 Mar 2022
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev LM&Ro 92 147 0 23 Feb 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 823 9,644 0 28 Jan 2022
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 129 1,066 0 07 Dec 2021
Less is More: Generating Grounded Navigation Instructions from Landmarks Su Wang Ceslee Montgomery Jordi Orbay Vighnesh Birodkar Aleksandra Faust Izzeddin Gur Natasha Jaques Austin Waters Jason Baldridge Peter Anderson 101 64 0 25 Nov 2021
Finetuned Language Models Are Zero-Shot Learners Jason W. Wei Maarten Bosma Vincent Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le ALM UQCV 217 3,782 0 03 Sep 2021
Airbert: In-domain Pretraining for Vision-and-Language Navigation Pierre-Louis Guhur Makarand Tapaswi Shizhe Chen Ivan Laptev Cordelia Schmid LM&Ro 52 142 0 20 Aug 2021
Vision-Language Navigation with Random Environmental Mixup Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen LM&Ro 95 87 0 15 Jun 2021
The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation Yuankai Qi Zizheng Pan Yicong Hong Ming-Hsuan Yang Anton Van Den Hengel Qi Wu LM&Ro 67 69 0 09 Apr 2021
Diagnosing Vision-and-Language Navigation: What Really Matters Wanrong Zhu Yuankai Qi P. Narayana Kazoo Sone Sugato Basu Xinze Wang Qi Wu Miguel P. Eckstein Wenjie Wang LM&Ro 76 51 0 30 Mar 2021
Structured Scene Memory for Vision-Language Navigation Hanqing Wang Wenguan Wang Wei Liang Caiming Xiong Jianbing Shen LM&Ro 77 114 0 05 Mar 2021
Topological Planning with Transformers for Vision-and-Language Navigation Kevin Chen Junshen K. Chen Jo Chuang Nathan Tsoi Silvio Savarese LM&Ro 82 100 0 09 Dec 2020
A Recurrent Vision-and-Language BERT for Navigation Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould LM&Ro 104 302 0 26 Nov 2020
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 222 134 0 19 Oct 2020
Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding Alexander Ku Peter Anderson Roma Patel Eugene Ie Jason Baldridge 93 313 0 15 Oct 2020
Object-and-Action Aware Model for Visual Language Navigation Yuankai Qi Zizheng Pan Shengping Zhang Anton Van Den Hengel Qi Wu LM&Ro 53 113 0 29 Jul 2020
Evolving Graphical Planner: Contextual Global Planning for Vision-and-Language Navigation Zhiwei Deng Karthik Narasimhan Olga Russakovsky 70 88 0 11 Jul 2020
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web Arjun Majumdar Ayush Shrivastava Stefan Lee Peter Anderson Devi Parikh Dhruv Batra LM&Ro 158 233 0 30 Apr 2020