Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments

29 November 2018

Papers citing "Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments"

50 / 104 papers shown

Title
ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning Jiawei Hou Yuting Xiao Xiangyang Xue Taiping Zeng 44 0 0 09 May 2025
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory Weichen Zhang Chen Gao Shiquan Yu Ruiying Peng Baining Zhao Qian Zhang Jinqiang Cui Xinlei Chen Yong Li LLMAG LM&Ro 49 0 0 08 May 2025
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs Pranav Saxena Nishant Raghuvanshi Neena Goveas 77 0 0 30 Apr 2025
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard Yifei Dong Fengyi Wu Qi He Heng Li Minghan Li ... Yuxuan Zhou Jingdong Sun Qi Dai Zhi-Qi Cheng Alexander G. Hauptmann LM&Ro 50 0 0 18 Mar 2025
Referring to Any Person Qing Jiang Lin Wu Zhaoyang Zeng Tianhe Ren Yuda Xiong Yihao Chen Qin Liu Lei Zhang 181 0 0 11 Mar 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 63 19 0 31 Dec 2024
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Zeang Sheng Weijia Li Weijia Li 76 0 0 22 Dec 2024
The Wallpaper is Ugly: Indoor Localization using Vision and Language Seth Pate Lawson L. S. Wong 33 0 0 04 Oct 2024
Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions Qingbin Zeng Qinglong Yang Shunan Dong Heming Du Liang Zheng Fengli Xu Yong Li LLMAG LM&Ro 45 9 0 08 Aug 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 40 4 0 26 Jul 2024
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence Zhuoling Li Xiaogang Xu Zhenhua Xu Sernam Lim Hengshuang Zhao LM&Ro 51 2 0 27 May 2024
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis Vishnu Sashank Dorbala Sanjoy Chowdhury Dinesh Manocha LM&Ro 38 0 0 18 Mar 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 62 20 0 12 Mar 2024
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning Bingqian Lin Yanxin Long Yi Zhu Fengda Zhu Xiaodan Liang QiXiang Ye Liang Lin 34 5 0 09 Mar 2024
Policy Improvement using Language Feedback Models Victor Zhong Dipendra Kumar Misra Xingdi Yuan Marc-Alexandre Côté 16 9 0 12 Feb 2024
VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation Jialu Li Aishwarya Padmakumar Gaurav Sukhatme Mohit Bansal 29 6 0 05 Feb 2024
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model Meera Hahn Amit Raj James M. Rehg 30 3 0 30 Nov 2023
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 68 9 0 01 Nov 2023
CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data Taiki Miyanishi Fumiya Kitamori Shuhei Kurita Jungdae Lee M. Kawanabe Nakamasa Inoue AI4TS 3DPC 17 6 0 28 Oct 2023
DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial Reasoning in Text Shuaiyi Li Yang Deng Wai Lam 30 2 0 19 Oct 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 26 2 0 06 Sep 2023
Multi-Level Compositional Reasoning for Interactive Instruction Following Suvaansh Bhambri Byeonghwi Kim Jonghyun Choi LM&Ro 41 11 0 18 Aug 2023
AerialVLN: Vision-and-Language Navigation for UAVs Shubo Liu Hongsheng Zhang Yuankai Qi Peifeng Wang Yaning Zhang Qi Wu CoGe 34 41 0 13 Aug 2023
HeGeL: A Novel Dataset for Geo-Location from Hebrew Text Tzuf Paz-Argaman Tal Bauman Itai Mondshine Itzhak Omer S. Dalyot Reut Tsarfaty 22 3 0 02 Jul 2023
Solving Dialogue Grounding Embodied Task in a Simulated Environment using Further Masked Language Modeling Weijie Zhang 29 0 0 21 Jun 2023
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation Jialu Li Joey Tianyi Zhou DiffM 31 49 0 30 May 2023
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding Chenchi Zhang Jun Xiao Lei Chen Jian Shao Long Chen VLM LRM 32 2 0 19 May 2023
Improving Vision-and-Language Navigation by Generating Future-View Image Semantics Jialu Li Joey Tianyi Zhou 29 34 0 11 Apr 2023
Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding Minyoung Hwang Jaeyeon Jeong Minsoo Kim Yoonseon Oh Songhwai Oh 25 19 0 07 Mar 2023
Multimodal Speech Recognition for Language-Guided Embodied Agents Allen Chang Xiaoyuan Zhu Aarav Monga Seoho Ahn Tejas Srinivasan Jesse Thomason AuLLM 24 3 0 27 Feb 2023
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation Bingqian Lin Yi Zhu Xiaodan Liang Liang Lin Jian-zhuo Liu CoGe LM&Ro 41 3 0 13 Feb 2023
Benchmarking Spatial Relationships in Text-to-Image Generation Tejas Gokhale Hamid Palangi Besmira Nushi Vibhav Vineet Eric Horvitz Ece Kamar Chitta Baral Yezhou Yang EGVM 51 66 0 20 Dec 2022
Continual Learning for Instruction Following from Realtime Feedback Alane Suhr Yoav Artzi 29 17 0 19 Dec 2022
lilGym: Natural Language Visual Reasoning with Reinforcement Learning Anne Wu Kianté Brantley Noriyuki Kojima Yoav Artzi ReLM OffRL LRM 27 3 0 03 Nov 2022
Transfer Learning with Synthetic Corpora for Spatial Role Labeling and Reasoning Roshanak Mirzaee Parisa Kordjamshidi SyDa LRM 27 33 0 30 Oct 2022
DOROTHIE: Spoken Dialogue for Handling Unexpected Situations in Interactive Autonomous Driving Agents Ziqiao Ma B. VanDerPloeg Cristian-Paul Bara Yidong Huang Eui-In Kim Felix Gervits M. Marge J. Chai 63 7 0 22 Oct 2022
ULN: Towards Underspecified Vision-and-Language Navigation Weixi Feng Tsu-jui Fu Yujie Lu William Yang Wang 49 5 0 18 Oct 2022
AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments Sudipta Paul A. Roy-Chowdhury A. Cherian 33 23 0 14 Oct 2022
A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning Aishwarya Kamath Peter Anderson Su Wang Jing Yu Koh Alexander Ku Austin Waters Yinfei Yang Jason Baldridge Zarana Parekh LM&Ro 22 45 0 06 Oct 2022
Iterative Vision-and-Language Navigation Jacob Krantz Shurjo Banerjee Wang Zhu Jason J. Corso Peter Anderson Stefan Lee Jesse Thomason LM&Ro 40 18 0 06 Oct 2022
Ground then Navigate: Language-guided Navigation in Dynamic Scenes Kanishk Jain Varun Chhangani Amogh Tiwari K. M. Krishna Vineet Gandhi LM&Ro 18 27 0 24 Sep 2022
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues Jason Armitage L. Impett Rico Sennrich 24 5 0 24 Jul 2022
Reasoning about Actions over Visual and Linguistic Modalities: A Survey Shailaja Keyur Sampat Maitreya Patel Subhasish Das Yezhou Yang Chitta Baral ReLM LM&Ro LRM 27 12 0 15 Jul 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 158 437 0 10 Jul 2022
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations Jialu Li Hao Tan Joey Tianyi Zhou LM&Ro 64 12 0 05 Jul 2022
Good Time to Ask: A Learning Framework for Asking for Help in Embodied Visual Navigation Jenny Zhang Samson Yu Jiafei Duan Cheston Tan 36 4 0 20 Jun 2022
Local Slot Attention for Vision-and-Language Navigation Yifeng Zhuang Qiang Sun Yanwei Fu Lifeng Chen Xiangyang Xue 23 2 0 17 Jun 2022
FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation Zi-Yi Dou Nanyun Peng 26 22 0 09 Jun 2022
Learning to Execute Actions or Ask Clarification Questions Zhengxiang Shi Yue Feng Aldo Lipani LM&Ro 18 44 0 18 Apr 2022
EnvEdit: Environment Editing for Vision-and-Language Navigation Jialu Li Hao Tan Joey Tianyi Zhou 31 80 0 29 Mar 2022