Improving Vision-and-Language Navigation with Image-Text Pairs from the
Web

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

30 April 2020

Ayush Shrivastava

Devi Parikh

Papers citing "Improving Vision-and-Language Navigation with Image-Text Pairs from the Web"

15 / 65 papers shown

Title
SOON: Scenario Oriented Object Navigation with Graph-based Exploration Fengda Zhu Xiwen Liang Yi Zhu Xiaojun Chang Xiaodan Liang 27 122 0 31 Mar 2021
Scene-Intuitive Agent for Remote Embodied Visual Grounding Xiangru Lin Guanbin Li Yizhou Yu LM&Ro 22 52 0 24 Mar 2021
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images Haolin Liu Anran Lin Xiaoguang Han Lei Yang Yizhou Yu Shuguang Cui 27 40 0 14 Mar 2021
Structured Scene Memory for Vision-Language Navigation Hanqing Wang Wenguan Wang Wei Liang Caiming Xiong Jianbing Shen LM&Ro 32 114 0 05 Mar 2021
CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation A. Magassouba K. Sugiura Hisashi Kawai 53 10 0 01 Mar 2021
Are We There Yet? Learning to Localize in Embodied Instruction Following Shane Storks Qiaozi Gao Govind Thattai Gokhan Tur LM&Ro 45 11 0 09 Jan 2021
Transformers in Vision: A Survey Salman Khan Muzammal Naseer Munawar Hayat Syed Waqas Zamir Fahad Shahbaz Khan M. Shah ViT 227 2,431 0 04 Jan 2021
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models Linjie Li Zhe Gan Jingjing Liu VLM 33 42 0 15 Dec 2020
Topological Planning with Transformers for Vision-and-Language Navigation Kevin Chen Junshen K. Chen Jo Chuang Marynel Vázquez Silvio Savarese LM&Ro 27 99 0 09 Dec 2020
Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning Weixia Zhang Chao Ma Qi Wu Xiaokang Yang 39 44 0 22 Nov 2020
Evolving Graphical Planner: Contextual Global Planning for Vision-and-Language Navigation Zhiwei Deng Karthik Narasimhan Olga Russakovsky 24 86 0 11 Jul 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 35 488 0 11 Jun 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 260 498 0 07 Jun 2018
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 104 3,126 0 02 Dec 2016