Scaling Data Generation in Vision-and-Language Navigation

28 July 2023

Zun Wang

Jialu Li

Yicong Hong

Yi Wang

Qi Wu

Yu Qiao

Papers citing "Scaling Data Generation in Vision-and-Language Navigation"

50 / 54 papers shown

Title
Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation Zihan Wang Seungjun Lee Gim Hee Lee VGen 9 0 0 16 May 2025
Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation Junrong Yue Yuhang Zhang Chuan Qin Jing Chen Xiaomin Lie Xinlei Yu Wenxin Zhang Zhendong Zhao 54 0 0 23 Apr 2025
ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments Lu Yue Dongliang Zhou Liang Xie Erwei Yin Feitian Zhang 36 0 0 14 Apr 2025
COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation Siqi Zhang Yanyuan Qiao Qunbo Wang Zike Yan Qi Wu Zhihua Wei Jiaheng Liu 59 0 0 31 Mar 2025
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation Ziming Wei Bingqian Lin Yunshuang Nie Jiaqi Chen Shikui Ma Hang Xu Xiaodan Liang 56 0 0 23 Mar 2025
Do Visual Imaginations Improve Vision-and-Language Navigation Agents? Akhil Perincherry Jacob Krantz Stefan Lee LM&Ro 41 1 0 20 Mar 2025
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard Yifei Dong Fengyi Wu Qi He Heng Li Minghan Li ... Yuxuan Zhou Jingdong Sun Qi Dai Zhi-Qi Cheng Alexander G. Hauptmann LM&Ro 50 0 0 18 Mar 2025
FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks Siqi Zhang Yanyuan Qiao Qunbo Wang Longteng Guo Zhihua Wei Jiaheng Liu LM&Ro 76 0 0 18 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 53 0 0 17 Mar 2025
SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation Xiangyu Shi Zerui Li Wenqi Lyu Jiatong Xia Feras Dayoub Yanyuan Qiao Qi Wu 57 0 0 13 Mar 2025
PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation Sen Wang Dongliang Zhou Liang Xie Chao Xu Ye Yan Erwei Yin DiffM 75 2 0 13 Mar 2025
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments Zerui Li Gengze Zhou Haodong Hong Yanyan Shao Wenqi Lyu Yanyuan Qiao Qi Wu 68 1 0 26 Feb 2025
Mobile Manipulation Instruction Generation from Multiple Images with Automatic Metric Enhancement Kei Katsumata Motonari Kambara Daichi Yashima Ryosuke Korekata Komei Sugiura 65 0 0 28 Jan 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 63 18 0 31 Dec 2024
Unleashing the Power of Data Synthesis in Visual Localization Sihang Li Siqi Tan Bowen Chang Jing Zhang Chen Feng Yiming Li 88 0 0 28 Nov 2024
Vision-Language Navigation with Energy-Based Policy Rui Liu Wenguan Wang Yuqing Yang 40 3 0 18 Oct 2024
NaVIP: An Image-Centric Indoor Navigation Solution for Visually Impaired People Jun Yu Yifan Zhang Badrinadh Aila V. Namboodiri 33 1 0 08 Oct 2024
DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback Zaid Khan Elias Stengel-Eskin Jaemin Cho Joey Tianyi Zhou VGen 43 1 0 08 Oct 2024
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models Yue Zhang Zhiyang Xu Ying Shen Parisa Kordjamshidi Lifu Huang 34 6 0 04 Oct 2024
MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation Junyou Zhu Yanyuan Qiao Siqi Zhang Xingjian He Qi Wu Jing Liu VLM 26 1 0 27 Sep 2024
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs Yanyuan Qiao Wenqi Lyu Hui Wang Zixu Wang Zerui Li Yuan Zhang Mingkui Tan Qi Wu LRM 36 3 0 27 Sep 2024
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models Gengze Zhou Yicong Hong Zun Wang Xin Eric Wang Qi Wu LM&Ro 45 19 0 17 Jul 2024
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation Jiaqi Chen Bingqian Lin Xinmin Liu Lin Ma Xiaodan Liang Kwan-Yee K. Wong LM&Ro 49 10 0 08 Jul 2024
Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions Minghan Li Heng Li Zhi-Qi Cheng Yifei Dong Yuxuan Zhou Jun-Yan He Qi Dai Teruko Mitamura Alexander G. Hauptmann LM&Ro 43 4 0 27 Jun 2024
Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts Haodong Hong Sen Wang Zi Huang Qi Wu Jiajun Liu 38 3 0 04 Jun 2024
Correctable Landmark Discovery via Large Models for Vision-Language Navigation Bingqian Lin Yunshuang Nie Ziming Wei Yi Zhu Hang Xu Shikui Ma Jianzhuang Liu Xiaodan Liang LM&Ro 37 6 0 29 May 2024
AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks Omar Moured Jiaming Zhang M. Sarfraz Rainer Stiefelhagen 36 1 0 22 May 2024
Vision-and-Language Navigation via Causal Learning Liuyi Wang Zongtao He Ronghao Dang Mengjiao Shen Chengju Liu Qijun Chen CML 52 14 0 16 Apr 2024
Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Junjie Hu Ming Jiang Shuqiang Jiang 47 16 0 02 Apr 2024
IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation Jiacui Huang Hongtao Zhang Mingbo Zhao Zhou Wu LM&Ro 39 5 0 28 Mar 2024
Volumetric Environment Representation for Vision-Language Navigation Rui Liu Wenguan Wang Yi Yang 34 25 0 21 Mar 2024
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents Abhaysinh Zala Jaemin Cho Han Lin Jaehong Yoon Mohit Bansal 36 13 0 18 Mar 2024
Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation Francesco Taioli Stefano Rosa A. Castellini Lorenzo Natale Alessio Del Bue Alessandro Farinelli Marco Cristani Yiming Wang 38 5 0 15 Mar 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 62 20 0 12 Mar 2024
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation Jiazhao Zhang Kunyu Wang Rongtao Xu Gengze Zhou Yicong Hong Xiaomeng Fang Qi Wu Zhizheng Zhang Wang He LM&Ro 40 45 0 24 Feb 2024
Vision-Language Navigation with Embodied Intelligence: A Survey Peng Gao Peng Wang Feng Gao Fei-Yue Wang Ruyue Yuan LM&Ro 40 2 0 22 Feb 2024
NavHint: Vision and Language Navigation Agent with a Hint Generator Yue Zhang Quan Guo Parisa Kordjamshidi LLMAG 32 9 0 04 Feb 2024
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation Jiaqi Chen Bingqian Lin Ran Xu Zhenhua Chai Xiaodan Liang Kwan-Yee K. Wong LM&Ro LLMAG 36 27 0 14 Jan 2024
LangNav: Language as a Perceptual Representation for Navigation Bowen Pan Rameswar Panda SouYoung Jin Rogerio Feris Aude Oliva Phillip Isola Yoon Kim LM&Ro 28 18 0 11 Oct 2023
Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation Yi-Chiao Su Dongyan An Yuan Xu Kehan Chen Yan Huang 49 2 0 22 Aug 2023
Learning Navigational Visual Representations with Semantic Map Supervision Yicong Hong Yang Zhou Ruiyi Zhang Franck Dernoncourt Trung Bui Stephen Gould Hao Tan SSL 30 21 0 23 Jul 2023
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models Gengze Zhou Yicong Hong Qi Wu ELM LM&Ro LLMAG LRM 25 142 0 26 May 2023
Masked Path Modeling for Vision-and-Language Navigation Zi-Yi Dou Feng Gao Nanyun Peng LM&Ro 31 3 0 23 May 2023
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments Dongyan An H. Wang Wenguan Wang Zun Wang Yan Huang Keji He Liang Wang 58 63 0 06 Apr 2023
BEVBert: Multimodal Map Pre-training for Language-guided Navigation Dongyan An Yuankai Qi Yangguang Li Yan Huang Liangsheng Wang Tieniu Tan Jing Shao 35 58 0 08 Dec 2022
Iterative Vision-and-Language Navigation Jacob Krantz Shurjo Banerjee Wang Zhu Jason J. Corso Peter Anderson Stefan Lee Jesse Thomason LM&Ro 40 18 0 06 Oct 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 158 436 0 10 Jul 2022
Waypoint Models for Instruction-guided Navigation in Continuous Environments Jacob Krantz Aaron Gokaslan Dhruv Batra Stefan Lee Oleksandr Maksymets LM&Ro 137 76 0 05 Oct 2021
TEACh: Task-driven Embodied Agents that Chat Aishwarya Padmakumar Jesse Thomason Ayush Shrivastava P. Lange Anjali Narayan-Chen Spandana Gella Robinson Piramithu Gokhan Tur Dilek Z. Hakkani-Tür LM&Ro 166 180 0 01 Oct 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 199 405 0 13 Jul 2021