Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding

15 October 2020

Papers citing "Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding"

50 / 223 papers shown

Title
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Hao Sha Yao Mu Yuxuan Jiang Li Chen Chenfeng Xu Ping Luo Shengbo Eben Li Masayoshi Tomizuka Wei Zhan Mingyu Ding 120 159 0 04 Oct 2023
Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions Yuxing Long Xiaoqi Li Wenzhe Cai Hao Dong LLMAG LM&Ro 29 45 0 20 Sep 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 26 2 0 06 Sep 2023
Multi-model fusion for Aerial Vision and Dialog Navigation based on human attention aids Xinyi Wang Xuan Cui Danxu Li Fang Liu Licheng Jiao 18 0 0 27 Aug 2023
Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment Jiamin Zhuang Jing Yu Yang Ding Xiangyang Qu Yue Hu 32 9 0 27 Aug 2023
Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation Yibo Cui Liang Xie Yakun Zhang Meishan Zhang Ye Yan Erwei Yin LM&Ro 34 16 0 24 Aug 2023
VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language Navigation Yanyuan Qiao Zheng Yu Qi Wu VLM 22 16 0 20 Aug 2023
March in Chat: Interactive Prompting for Remote Embodied Referring Expression Yanyuan Qiao Yuankai Qi Zheng Yu Jiaheng Liu Qi Wu LM&Ro 41 30 0 20 Aug 2023
DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation Hanqing Wang Wei Liang Luc Van Gool Wenguan Wang LM&Ro 33 28 0 14 Aug 2023
AerialVLN: Vision-and-Language Navigation for UAVs Shubo Liu Hongsheng Zhang Yuankai Qi Peifeng Wang Yaning Zhang Qi Wu CoGe 34 40 0 13 Aug 2023
Bird's-Eye-View Scene Graph for Vision-Language Navigation Ruitao Liu Xiaohan Wang Wenguan Wang Yi Yang 20 50 0 09 Aug 2023
Learning to Model the World with Language Jessy Lin Yuqing Du Olivia Watkins Danijar Hafner Pieter Abbeel Dan Klein Anca Dragan LM&Ro SyDa 35 51 0 31 Jul 2023
Scaling Data Generation in Vision-and-Language Navigation Zun Wang Jialu Li Yicong Hong Yi Wang Qi Wu Joey Tianyi Zhou Stephen Gould Hao Tan Yu Qiao LM&Ro 37 56 0 28 Jul 2023
GridMM: Grid Memory Map for Vision-and-Language Navigation Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Shuqiang Jiang 33 52 0 24 Jul 2023
Learning Navigational Visual Representations with Semantic Map Supervision Yicong Hong Yang Zhou Ruiyi Zhang Franck Dernoncourt Trung Bui Stephen Gould Hao Tan SSL 30 21 0 23 Jul 2023
Learning Vision-and-Language Navigation from YouTube Videos Kun-Li Channing Lin Peihao Chen Di Huang Thomas H. Li Mingkui Tan Chuang Gan LM&Ro 30 25 0 22 Jul 2023
Selective Perception: Optimizing State Descriptions with Reinforcement Learning for Language Model Actors Kolby Nottingham Yasaman Razeghi Kyungmin Kim JB Lanier Pierre Baldi Roy Fox Sameer Singh 30 9 0 21 Jul 2023
Behavioral Analysis of Vision-and-Language Navigation Agents Zijiao Yang Arjun Majumdar Stefan Lee LM&Ro LLMAG 16 9 0 20 Jul 2023
Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making Ruipu Luo Jiwen Zhang Zhongyu Wei VLM 16 0 0 16 Jul 2023
VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View Raphael Schumann Wanrong Zhu Weixi Feng Tsu-jui Fu Stefan Riezler William Yang Wang LM&Ro 29 63 0 12 Jul 2023
Prototypical Contrastive Transfer Learning for Multimodal Language Understanding Seitaro Otsuki Shintaro Ishikawa K. Sugiura 46 1 0 12 Jul 2023
HeGeL: A Novel Dataset for Geo-Location from Hebrew Text Tzuf Paz-Argaman Tal Bauman Itai Mondshine Itzhak Omer S. Dalyot Reut Tsarfaty 22 3 0 02 Jul 2023
HomeRobot: Open-Vocabulary Mobile Manipulation Sriram Yenamandra A. Ramachandran Karmesh Yadav Austin S. Wang Mukul Khanna ... Devendra Singh Chaplot Dhruv Batra Roozbeh Mottaghi Yonatan Bisk Chris Paxton LM&Ro 44 79 0 20 Jun 2023
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation Xiwen Liang Liang Ma Shanshan Guo Jianhua Han Hang Xu Shikui Ma Xiaodan Liang LM&Ro LLMAG 88 4 0 17 Jun 2023
Language to Rewards for Robotic Skill Synthesis Wenhao Yu Nimrod Gileadi Chuyuan Fu Sean Kirmani Kuang-Huei Lee ... N. Heess Dorsa Sadigh Jie Tan Yuval Tassa F. Xia LM&Ro 39 269 0 14 Jun 2023
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation Jialu Li Joey Tianyi Zhou DiffM 31 49 0 30 May 2023
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models Gengze Zhou Yicong Hong Qi Wu ELM LM&Ro LLMAG LRM 25 142 0 26 May 2023
Masked Path Modeling for Vision-and-Language Navigation Zi-Yi Dou Feng Gao Nanyun Peng LM&Ro 31 3 0 23 May 2023
Accessible Instruction-Following Agent Kairui Zhou 34 1 0 08 May 2023
A framework for the emergence and analysis of language in social learning agents Tobias J. Wieczorek Tatjana Tchumatchenko Carlos Wert Carvajal Maximilian F. Eggl 24 1 0 04 May 2023
Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics Kuo-Hao Zeng Luca Weihs Roozbeh Mottaghi Ali Farhadi 37 3 0 24 Apr 2023
Improving Vision-and-Language Navigation by Generating Future-View Image Semantics Jialu Li Joey Tianyi Zhou 29 34 0 11 Apr 2023
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments Dongyan An H. Wang Wenguan Wang Zun Wang Yan Huang Keji He Liang Wang 61 63 0 06 Apr 2023
KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation Xiangyang Li Zihan Wang Jiahao Yang Yaowei Wang Shuqiang Jiang LM&Ro 18 38 0 28 Mar 2023
CB2: Collaborative Natural Language Interaction Research Platform Jacob Sharf Mustafa Omer Gul Yoav Artzi LLMAG 35 1 0 14 Mar 2023
Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding Minyoung Hwang Jaeyeon Jeong Minsoo Kim Yoonseon Oh Songhwai Oh 25 19 0 07 Mar 2023
MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation Zongtao He Liuyi Wang Shu Li Qingqing Yan Chengju Liu Qi Chen 19 7 0 02 Mar 2023
ESceme: Vision-and-Language Navigation with Episodic Scene Memory Qinjie Zheng Daqing Liu Chaoyue Wang Jing Zhang Dadong Wang Dacheng Tao LM&Ro 38 5 0 02 Mar 2023
Multimodal Speech Recognition for Language-Guided Embodied Agents Allen Chang Xiaoyuan Zhu Aarav Monga Seoho Ahn Tejas Srinivasan Jesse Thomason AuLLM 24 3 0 27 Feb 2023
VLN-Trans: Translator for the Vision and Language Navigation Agent Yue Zhang Parisa Kordjamshidi 37 16 0 18 Feb 2023
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation Bingqian Lin Yi Zhu Xiaodan Liang Liang Lin Jian-zhuo Liu CoGe LM&Ro 41 3 0 13 Feb 2023
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling Kolby Nottingham Prithviraj Ammanabrolu Alane Suhr Yejin Choi Hannaneh Hajishirzi Sameer Singh Roy Fox LLMAG LM&Ro 44 77 0 28 Jan 2023
Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments Ting Wang Zongkai Wu Feiyu Yao Donglin Wang 51 5 0 11 Jan 2023
Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for Instruction Generation Models Lingjun Zhao Khanh Nguyen Hal Daumé ELM 30 6 0 21 Dec 2022
BEVBert: Multimodal Map Pre-training for Language-guided Navigation Dongyan An Yuankai Qi Yangguang Li Yan Huang Liangsheng Wang Tieniu Tan Jing Shao 35 58 0 08 Dec 2022
LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models Chan Hee Song Jiaman Wu Clay Washington Brian M Sadler Wei-Lun Chao Yu-Chuan Su LLMAG LM&Ro 45 383 0 08 Dec 2022
CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation Vishnu Sashank Dorbala Gunnar A. Sigurdsson Robinson Piramuthu Jesse Thomason Gaurav Sukhatme LM&Ro 36 55 0 30 Nov 2022
Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances Jacob Krantz Stefan Lee Jitendra Malik Dhruv Batra Devendra Singh Chaplot LM&Ro VGen 19 27 0 29 Nov 2022
Navigation as Attackers Wish? Towards Building Robust Embodied Agents under Federated Learning Yunchao Zhang Zonglin Di KAI-QING Zhou Cihang Xie Xin Eric Wang FedML AAML 21 1 0 27 Nov 2022
Pragmatics in Language Grounding: Phenomena, Tasks, and Modeling Approaches Daniel Fried Nicholas Tomlin Jennifer Hu Roma Patel Aida Nematzadeh 21 6 0 15 Nov 2022