A Recurrent Vision-and-Language BERT for Navigation

26 November 2020

Yicong Hong

Qi Wu

Yuankai Qi

Cristian Rodriguez-Opazo

Stephen Gould

LM&Ro

ArXiv PDF HTML

Papers citing "A Recurrent Vision-and-Language BERT for Navigation"

30 / 80 papers shown

Title
Target-Driven Structured Transformer Planner for Vision-Language Navigation Yusheng Zhao Jinyu Chen Chen Gao Wenguan Wang Lirong Yang Haibing Ren Huaxia Xia Si Liu LM&Ro 27 57 0 19 Jul 2022
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations Jialu Li Hao Tan Joey Tianyi Zhou LM&Ro 64 12 0 05 Jul 2022
Local Slot Attention for Vision-and-Language Navigation Yifeng Zhuang Qiang Sun Yanwei Fu Lifeng Chen Xiangyang Xue 19 2 0 17 Jun 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 60 527 0 13 Jun 2022
Prompt-based Learning for Unpaired Image Captioning Peipei Zhu Tianlin Li Lin Zhu Zhenglong Sun Weishi Zheng Yaowei Wang C. L. P. Chen VLM 23 31 0 26 May 2022
Vision-and-Language Pretrained Models: A Survey Siqu Long Feiqi Cao S. Han Haiqing Yang VLM 33 63 0 15 Apr 2022
Simple and Effective Synthesis of Indoor 3D Scenes Jing Yu Koh Harsh Agrawal Dhruv Batra Richard Tucker Austin Waters Honglak Lee Yinfei Yang Jason Baldridge Peter Anderson VGen 3DV 21 29 0 06 Apr 2022
EnvEdit: Environment Editing for Vision-and-Language Navigation Jialu Li Hao Tan Joey Tianyi Zhou 31 80 0 29 Mar 2022
FedVLN: Privacy-preserving Federated Vision-and-Language Navigation Kaiwen Zhou Qing Guo FedML 23 8 0 28 Mar 2022
Reshaping Robot Trajectories Using Natural Language Commands: A Study of Multi-Modal Data Alignment Using Transformers A. Bucker Luis F. C. Figueredo Sami Haddadin Ashish Kapoor Shuang Ma Rogerio Bonatti LM&Ro 32 49 0 25 Mar 2022
Cross-modal Map Learning for Vision and Language Navigation G. Georgakis Karl Schmeckpeper Karan Wanchoo Soham Dan E. Miltsakaki Dan Roth Kostas Daniilidis 22 64 0 10 Mar 2022
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration Xiwen Liang Fengda Zhu Lingling Li Hang Xu Xiaodan Liang LM&Ro VLM 30 29 0 08 Mar 2022
Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Navigation Yicong Hong Zun Wang Qi Wu Stephen Gould 3DV 29 64 0 05 Mar 2022
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev LM&Ro 28 139 0 23 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language Navigation A. Moudgil Arjun Majumdar Harsh Agrawal Stefan Lee Dhruv Batra LM&Ro 27 57 0 27 Oct 2021
A Framework for Learning to Request Rich and Contextually Useful Information from Humans Khanh Nguyen Yonatan Bisk Hal Daumé 47 16 0 14 Oct 2021
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments Muhammad Zubair Irshad Niluthpol Chowdhury Mithun Zachary Seymour Han-Pang Chiu S. Samarasekera Rakesh Kumar LM&Ro 23 49 0 26 Aug 2021
Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould VLM 19 192 0 09 Aug 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 196 405 0 13 Jul 2021
LanguageRefer: Spatial-Language Model for 3D Visual Grounding Junha Roh Karthik Desingh Ali Farhadi D. Fox 22 95 0 07 Jul 2021
Vision-Language Navigation with Random Environmental Mixup Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen LM&Ro 56 86 0 15 Jun 2021
Hierarchical Task Learning from Language Instructions with Unified Transformers and Self-Monitoring Yichi Zhang J. Chai 25 78 0 07 Jun 2021
Episodic Transformer for Vision-and-Language Navigation Alexander Pashevich Cordelia Schmid Chen Sun LM&Ro 43 193 0 13 May 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 106 54 0 23 Apr 2021
The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation Yuankai Qi Zizheng Pan Yicong Hong Ming-Hsuan Yang Anton Van Den Hengel Qi Wu LM&Ro 24 68 0 09 Apr 2021
Diagnosing Vision-and-Language Navigation: What Really Matters Wanrong Zhu Yuankai Qi P. Narayana Kazoo Sone Sugato Basu Qing Guo Qi Wu M. Eckstein Luu Anh Tuan LM&Ro 27 50 0 30 Mar 2021
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 179 132 0 19 Oct 2020
Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning Khanh Nguyen Hal Daumé LM&Ro EgoV 180 150 0 04 Sep 2019
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 260 498 0 07 Jun 2018