Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

20 November 2017

Qi Wu

Papers citing "Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments"

50 / 306 papers shown

Title
Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology Yatai Ji Zhengqiu Zhu Yong Zhao Beidan Liu Chen Gao Yihao Zhao S. Qiu Yue Hu Quanjun Yin Yong Li 33 0 0 13 May 2025
ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning Jiawei Hou Yuting Xiao Xiangyang Xue Taiping Zeng 41 0 0 09 May 2025
VISTA: Generative Visual Imagination for Vision-and-Language Navigation Yanjia Huang Mingyang Wu Renjie Li Zhengzhong Tu LM&Ro 41 0 0 09 May 2025
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions Qingwen Bu Yanting Yang Jisong Cai Shenyuan Gao Guanghui Ren Maoqing Yao Ping Luo Hongyang Li 119 0 0 09 May 2025
SITE: towards Spatial Intelligence Thorough Evaluation Luu Anh Tuan Reuben Tan Pengyue Zhu Jianwei Yang Zhengyuan Yang Lijuan Wang Andrey Kolobov Jianfeng Gao Boqing Gong 45 0 0 08 May 2025
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory Weichen Zhang Chen Gao Shiquan Yu Ruiying Peng Baining Zhao Qian Zhang Jinqiang Cui Xinlei Chen Yongqian Li LLMAG LM&Ro 47 0 0 08 May 2025
LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs Xinyuan Zhang Yonglin Tian Fei Lin Yue Liu Jing Ma Kornélia Sára Szatmáry Fei Wang 48 0 0 06 May 2025
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications Trisanth Srinivasan Santosh Patapati 34 0 0 03 May 2025
Visual Test-time Scaling for GUI Agent Grounding Tiange Luo Lajanugen Logeswaran Justin Johnson Honglak Lee 51 0 0 01 May 2025
A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI Lik Hang Kenny Wong Xueyang Kang Kaixin Bai Jianwei Zhang 56 0 0 01 May 2025
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs Pranav Saxena Nishant Raghuvanshi Neena Goveas 74 0 0 30 Apr 2025
DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation Yinfeng Yu Dongsheng Yang 22 0 0 30 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 86 1 0 26 Apr 2025
Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation Junrong Yue Yuhang Zhang Chuan Qin Jing Chen Xiaomin Lie Xinlei Yu Wenxin Zhang Zhendong Zhao 54 0 0 23 Apr 2025
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard Yifei Dong Fengyi Wu Qi He Heng Li Minghan Li ... Yuxuan Zhou Jingdong Sun Qi Dai Zhi-Qi Cheng Alexander G. Hauptmann LM&Ro 50 0 0 18 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 61 0 0 11 Mar 2025
A Survey of Graph Transformers: Architectures, Theories and Applications Chaohao Yuan Kangfei Zhao Ercan Engin Kuruoglu Liang Wang Tingyang Xu Wenbing Huang Deli Zhao Hong Cheng Yu Rong 57 4 0 23 Feb 2025
Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments Luca Barsellotti Roberto Bigazzi Marcella Cornia Lorenzo Baraldi Rita Cucchiara 95 1 0 20 Feb 2025
REGNav: Room Expert Guided Image-Goal Navigation Pengna Li Kangyi Wu Jingwen Fu Sanping Zhou 54 0 0 15 Feb 2025
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation Navid Rajabi Jana Kosecka LM&Ro 3DV 58 0 0 11 Feb 2025
Compositional Instruction Following with Language Models and Reinforcement Learning Vanya Cohen Geraud Nangue Tasse N. Gopalan Steven D. James Matthew C. Gombolay Ray Mooney Benjamin Rosman 71 0 0 21 Jan 2025
Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models Malak Mansour Ahmed Aly Bahey Tharwat Sarim Hashmi Dong An Ian Reid LM&Ro ELM LRM 56 0 0 07 Jan 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 63 18 0 31 Dec 2024
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Conghui He Weijia Li Weijia Li 76 0 0 22 Dec 2024
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method Xinshuai Song Weixing Chen Yong-Jin Liu Weikai Chen Guanbin Li Liang Lin 123 3 0 12 Dec 2024
CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision Gi-Cheon Kang Junghyun Kim Kyuhwan Shim Jun Ki Lee Byoung-Tak Zhang LM&Ro 99 1 1 01 Nov 2024
Q-VLM: Post-training Quantization for Large Vision-Language Models Changyuan Wang Ziwei Wang Xiuwei Xu Yansong Tang Jie Zhou Jiwen Lu MQ 32 1 0 10 Oct 2024
The Wallpaper is Ugly: Indoor Localization using Vision and Language Seth Pate Lawson L. S. Wong 33 0 0 04 Oct 2024
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning Minheng Ni Yutao Fan Lei Zhang Wangmeng Zuo LRM AI4CE 31 6 0 04 Oct 2024
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models Yue Zhang Zhiyang Xu Ying Shen Parisa Kordjamshidi Lifu Huang 34 6 0 04 Oct 2024
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction Suhwan Choi Yongjun Cho Minchan Kim Jaeyoon Jung Myunchul Joe ... Sungwoong Kim Sungjae Lee Hwiseong Park Jiwan Chung Youngjae Yu 45 0 0 02 Oct 2024
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs Yanyuan Qiao Wenqi Lyu Hui Wang Zixu Wang Zerui Li Yuan Zhang Mingkui Tan Qi Wu LRM 36 3 0 27 Sep 2024
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation Quanting Xie So Yeon Min Tianyi Zhang Kedi Xu Aarav Bajaj Ruslan Salakhutdinov Matthew Johnson-Roberson Yonatan Bisk Matthew Johnson-Roberson Yonatan Bisk LM&Ro 55 7 0 26 Sep 2024
GSON: A Group-based Social Navigation Framework with Large Multimodal Model Shangyi Luo Ji Zhu Peng Sun Yuhong Deng Cunjun Yu Anxing Xiao Xueqian Wang LM&Ro 47 1 0 26 Sep 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 40 4 0 26 Jul 2024
Answerability Fields: Answerable Location Estimation via Diffusion Models Daich Azuma Taiki Miyanishi Shuhei Kurita Koya Sakamoto M. Kawanabe DiffM 48 0 0 26 Jul 2024
Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering Zhaohe Liao Jiangtong Li Li Niu Liqing Zhang CoGe 37 3 0 03 Jul 2024
CAMON: Cooperative Agents for Multi-Object Navigation with LLM-based Conversations Pengying Wu Yao Mu Kangjie Zhou Ji Ma Junting Chen Chang Liu LLMAG LM&Ro 36 2 0 30 Jun 2024
LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control Delin Qu Qizhi Chen Pingrui Zhang Xianqiang Gao Bin Zhao Bin Zhao Dong Wang Xuelong Li AI4CE 42 7 0 23 Jun 2024
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence Zhuoling Li Xiaogang Xu Zhenhua Xu Sernam Lim Hengshuang Zhao LM&Ro 51 2 0 27 May 2024
VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation Kuo-Han Hung Pang-Chi Lo Jia-Fong Yeh Han-Yuan Hsu Yi-Ting Chen Winston H. Hsu 33 0 0 26 May 2024
Like Humans to Few-Shot Learning through Knowledge Permeation of Vision and Text Yuyu Jia Qing Zhou Wei Huang Junyu Gao Qi. Wang VLM 37 1 0 21 May 2024
Following the Human Thread in Social Navigation Luca Scofano Alessio Sampieri Tommaso Campari Valentino Sacco Indro Spinelli Lamberto Ballan Fabio Galasso 39 0 0 17 Apr 2024
IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation Jiacui Huang Hongtao Zhang Mingbo Zhao Zhou Wu LM&Ro 39 5 0 28 Mar 2024
Data-Efficient 3D Visual Grounding via Order-Aware Referring Tung-Yu Wu Sheng-Yu Huang Yu-Chiang Frank Wang 34 0 0 25 Mar 2024
Prioritized Semantic Learning for Zero-shot Instance Navigation Xander Sun Louis Lau Hoyard Zhi Ronghe Qiu Junwei Liang 37 8 0 18 Mar 2024
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis Vishnu Sashank Dorbala Sanjoy Chowdhury Dinesh Manocha LM&Ro 38 0 0 18 Mar 2024
Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation Francesco Taioli Stefano Rosa A. Castellini Lorenzo Natale Alessio Del Bue Alessandro Farinelli Marco Cristani Yiming Wang 38 5 0 15 Mar 2024
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration Weiying Xue Qi Liu Qiwei Xiong Yuxiao Wang Zhenao Wei Xiaofen Xing Xiangmin Xu VLM 45 3 0 12 Mar 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 62 20 0 12 Mar 2024