Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

20 November 2017

Qi Wu

Papers citing "Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments"

50 / 307 papers shown

Title
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning Bingqian Lin Yanxin Long Yi Zhu Fengda Zhu Xiaodan Liang QiXiang Ye Liang Lin 31 5 0 09 Mar 2024
Adversarial Testing for Visual Grounding via Image-Aware Property Reduction Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Boyu Wu Fanjiang Xu Qing Wang AAML 36 0 0 02 Mar 2024
DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments Ji Ma Hongming Dai Yao Mu Pengying Wu Hao Wang Xiaowei Chi Yang Fei Shanghang Zhang Chang-rui Liu 49 6 0 29 Feb 2024
VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation Jialu Li Aishwarya Padmakumar Gaurav Sukhatme Mohit Bansal 29 6 0 05 Feb 2024
Image Translation as Diffusion Visual Programmers Cheng Han James Liang Qifan Wang Majid Rabbani S. Dianat Raghuveer M. Rao Ying Nian Wu Dongfang Liu 29 8 0 18 Jan 2024
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts Mingsheng Li Xin Chen C. Zhang Sijin Chen Hongyuan Zhu Fukun Yin Gang Yu Tao Chen 31 24 0 17 Dec 2023
LLM A: Human in the Loop Large Language Models Enabled A Search for Robotics Hengjia Xiao Peng Wang Mingzhe Yu Mattia Robbiani 23 21 0 04 Dec 2023
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model Meera Hahn Amit Raj James M. Rehg 30 3 0 30 Nov 2023
Interaction is all You Need? A Study of Robots Ability to Understand and Execute Kushal Koshti Nidhir Bhavsar 55 1 0 13 Nov 2023
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 66 9 0 01 Nov 2023
Vision and Language Navigation in the Real World via Online Visual Language Mapping Chengguang Xu Hieu T. Nguyen Christopher Amato Lawson L. S. Wong 32 9 0 16 Oct 2023
Evaluating Explanation Methods for Vision-and-Language Navigation Guanqi Chen Lei Yang Guanhua Chen Jia Pan XAI 23 0 0 10 Oct 2023
Semantic Scene Difference Detection in Daily Life Patroling by Mobile Robots using Pre-Trained Large-Scale Vision-Language Model Yoshiki Obinata Kento Kawaharazuka Naoaki Kanazawa N. Yamaguchi Naoto Tsukamoto Iori Yanokura Shingo Kitagawa Koki Shinjo K. Okada Masayuki Inaba LM&Ro 17 6 0 28 Sep 2023
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model Avamarie Brueggeman Andrea Madotto Zhaojiang Lin Tushar Nagarajan Matt Smith ... Peyman Heidari Yue Liu Kavya Srinet Babak Damavandi Anuj Kumar MLLM 34 93 0 27 Sep 2023
E(2)-Equivariant Graph Planning for Navigation Linfeng Zhao Hongyu Li T. Padır Huaizu Jiang Lawson L. S. Wong 25 6 0 22 Sep 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 26 2 0 06 Sep 2023
Explore and Tell: Embodied Visual Captioning in 3D Environments Anwen Hu Shizhe Chen Liang Zhang Qin Jin LM&Ro 32 2 0 21 Aug 2023
Multi-Level Compositional Reasoning for Interactive Instruction Following Suvaansh Bhambri Byeonghwi Kim Jonghyun Choi LM&Ro 41 11 0 18 Aug 2023
DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation Hanqing Wang Wei Liang Luc Van Gool Wenguan Wang LM&Ro 33 28 0 14 Aug 2023
An Outlook into the Future of Egocentric Vision Chiara Plizzari Gabriele Goletto Antonino Furnari Siddhant Bansal Francesco Ragusa G. Farinella Dima Damen Tatiana Tommasi EgoV 40 38 0 14 Aug 2023
AerialVLN: Vision-and-Language Navigation for UAVs Shubo Liu Hongsheng Zhang Yuankai Qi Peifeng Wang Yaning Zhang Qi Wu CoGe 34 40 0 13 Aug 2023
Towards General Visual-Linguistic Face Forgery Detection Ke Sun Shen Chen Taiping Yao Haozhe Yang Xiaoshuai Sun Shouhong Ding Rongrong Ji 28 12 0 31 Jul 2023
GridMM: Grid Memory Map for Vision-and-Language Navigation Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Shuqiang Jiang 33 52 0 24 Jul 2023
HomeRobot: Open-Vocabulary Mobile Manipulation Sriram Yenamandra A. Ramachandran Karmesh Yadav Austin S. Wang Mukul Khanna ... Devendra Singh Chaplot Dhruv Batra Roozbeh Mottaghi Yonatan Bisk Chris Paxton LM&Ro 44 79 0 20 Jun 2023
Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene Scale and Realism Tradeoffs for ObjectGoal Navigation Mukul Khanna Yongsen Mao Hanxiao Jiang Sanjay Haresh Brennan Schacklett Dhruv Batra Alexander Clegg Eric Undersander Angel X. Chang Manolis Savva 3DV 41 68 0 20 Jun 2023
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation Jialu Li Joey Tianyi Zhou DiffM 31 49 0 30 May 2023
GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation Jingyang Huo Qiang Sun Boyan Jiang Haitao Lin Yanwei Fu 36 19 0 26 May 2023
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models Gengze Zhou Yicong Hong Qi Wu ELM LM&Ro LLMAG LRM 25 142 0 26 May 2023
Text encoders bottleneck compositionality in contrastive vision-language models Amita Kamath Jack Hessel Kai-Wei Chang CoGe CLIP VLM 27 19 0 24 May 2023
Multimodal Grounding for Embodied AI via Augmented Reality Headsets for Natural Language Driven Task Planning Selma Wanna Fabian Parra R. Valner Karl Kruusamäe Mitch Pryor LM&Ro 26 2 0 26 Apr 2023
Improving Vision-and-Language Navigation by Generating Future-View Image Semantics Jialu Li Joey Tianyi Zhou 29 34 0 11 Apr 2023
Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following Mingyu Ding Yan Xu Zhenfang Chen David D. Cox Ping Luo J. Tenenbaum Chuang Gan LM&Ro 59 21 0 07 Apr 2023
Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA Yongxin Zhu Ziqiang Liu Yukang Liang Xin Li Hao Liu Changcun Bao Linli Xu 21 6 0 04 Apr 2023
Navigating to Objects Specified by Images Jacob Krantz Théophile Gervet Karmesh Yadav Austin S. Wang Chris Paxton Roozbeh Mottaghi Dhruv Batra Jitendra Malik Stefan Lee Devendra Singh Chaplot 44 36 0 03 Apr 2023
KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation Xiangyang Li Zihan Wang Jiahao Yang Yaowei Wang Shuqiang Jiang LM&Ro 18 38 0 28 Mar 2023
CB2: Collaborative Natural Language Interaction Research Platform Jacob Sharf Mustafa Omer Gul Yoav Artzi LLMAG 35 1 0 14 Mar 2023
Learning to Select Camera Views: Efficient Multiview Understanding at Few Glances Yunzhong Hou Stephen Gould Liang Zheng 19 1 0 10 Mar 2023
Data-Efficient Learning of Natural Language to Linear Temporal Logic Translators for Robot Task Specification Jiayi Pan Glen Chou Dmitry Berenson 26 35 0 09 Mar 2023
Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding Minyoung Hwang Jaeyeon Jeong Minsoo Kim Yoonseon Oh Songhwai Oh 25 19 0 07 Mar 2023
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges Maria Lymperaiou Giorgos Stamou VLM 32 4 0 04 Mar 2023
Alexa Arena: A User-Centric Interactive Platform for Embodied AI Qiaozi Gao Govind Thattai Suhaila Shakiah Xiaofeng Gao Shreyas Pansare ... Michael Johnston R. Ghanadan Arindam Mandal Dilek Z. Hakkani-Tür Premkumar Natarajan 6 25 0 02 Mar 2023
MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation Zongtao He Liuyi Wang Shu Li Qingqing Yan Chengju Liu Qi Chen 19 7 0 02 Mar 2023
Multimodal Speech Recognition for Language-Guided Embodied Agents Allen Chang Xiaoyuan Zhu Aarav Monga Seoho Ahn Tejas Srinivasan Jesse Thomason AuLLM 24 3 0 27 Feb 2023
VLN-Trans: Translator for the Vision and Language Navigation Agent Yue Zhang Parisa Kordjamshidi 37 16 0 18 Feb 2023
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation Bingqian Lin Yi Zhu Xiaodan Liang Liang Lin Jian-zhuo Liu CoGe LM&Ro 41 3 0 13 Feb 2023
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling Kolby Nottingham Prithviraj Ammanabrolu Alane Suhr Yejin Choi Hannaneh Hajishirzi Sameer Singh Roy Fox LLMAG LM&Ro 44 77 0 28 Jan 2023
A Data-Efficient Visual-Audio Representation with Intuitive Fine-tuning for Voice-Controlled Robots Peixin Chang Shuijing Liu Tianchen Ji Neeloy Chakraborty Kaiwen Hong Katherine Driggs-Campbell 51 3 0 23 Jan 2023
PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav Ram Ramrakhya Dhruv Batra Erik Wijmans Abhishek Das OffRL 23 53 0 18 Jan 2023
Diffusion-based Generation, Optimization, and Planning in 3D Scenes Siyuan Huang Zan Wang Puhao Li Baoxiong Jia Tengyu Liu Yixin Zhu Wei Liang Song-Chun Zhu DiffM 64 201 0 15 Jan 2023
Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments Ting Wang Zongkai Wu Feiyu Yao Donglin Wang 51 5 0 11 Jan 2023