v1v2 (latest)

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

26 May 2023

Papers citing "GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation"

21 / 21 papers shown

Title
Object-centric proto-symbolic behavioural reasoning from pixels R. S. V. Bergen Justus F. Hübotter Pablo Lanillos LM&Ro OCL 183 1 0 26 Nov 2024
Local Slot Attention for Vision-and-Language Navigation Yifeng Zhuang Qiang Sun Yanwei Fu Lifeng Chen Xiangyang Xue 89 2 0 17 Jun 2022
Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans Ainaz Eftekhar Alexander Sax Roman Bachmann Jitendra Malik Amir Zamir MedIm 116 300 0 11 Oct 2021
Airbert: In-domain Pretraining for Vision-and-Language Navigation Pierre-Louis Guhur Makarand Tapaswi Shizhe Chen Ivan Laptev Cordelia Schmid LM&Ro 57 144 0 20 Aug 2021
Unsupervised Discovery of Object Radiance Fields Hong-Xing Yu Leonidas Guibas Jiajun Wu OCL 62 124 0 16 Jul 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 259 411 0 13 Jul 2021
The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation Yuankai Qi Zizheng Pan Yicong Hong Ming-Hsuan Yang Anton Van Den Hengel Qi Wu LM&Ro 72 69 0 09 Apr 2021
Scene-Intuitive Agent for Remote Embodied Visual Grounding Xiangru Lin Guanbin Li Yizhou Yu LM&Ro 69 53 0 24 Mar 2021
A Survey of Embodied AI: From Simulators to Research Tasks Jiafei Duan Samson Yu Tangyao Li Huaiyu Zhu Cheston Tan LM&Ro 68 294 0 08 Mar 2021
A Recurrent Vision-and-Language BERT for Navigation Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould LM&Ro 104 303 0 26 Nov 2020
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 226 134 0 19 Oct 2020
Object-Centric Learning with Slot Attention Francesco Locatello Dirk Weissenborn Thomas Unterthiner Aravindh Mahendran G. Heigold Jakob Uszkoreit Alexey Dosovitskiy Thomas Kipf OCL 225 859 0 26 Jun 2020
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web Arjun Majumdar Ayush Shrivastava Stefan Lee Peter Anderson Devi Parikh Dhruv Batra LM&Ro 171 235 0 30 Apr 2020
Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training Weituo Hao Chunyuan Li Xiujun Li Lawrence Carin Jianfeng Gao LM&Ro 93 282 0 25 Feb 2020
Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks Fengda Zhu Yi Zhu Xiaojun Chang Xiaodan Liang LRM 103 243 0 18 Nov 2019
Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout Hao Tan Licheng Yu Joey Tianyi Zhou SSL 91 322 0 08 Apr 2019
On Evaluation of Embodied Navigation Agents Peter Anderson Angel X. Chang Devendra Singh Chaplot Alexey Dosovitskiy Saurabh Gupta ... Jana Kosecka Jitendra Malik Roozbeh Mottaghi Manolis Savva Amir Zamir 120 805 0 18 Jul 2018
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 319 505 0 07 Jun 2018
MAttNet: Modular Attention Network for Referring Expression Comprehension Licheng Yu Zhe Lin Xiaohui Shen Jimei Yang Xin Lu Joey Tianyi Zhou Tamara L. Berg ObjD 117 831 0 24 Jan 2018
Matterport3D: Learning from RGB-D Data in Indoor Environments Angel X. Chang Angela Dai Thomas Funkhouser Maciej Halber Matthias Nießner Manolis Savva Shuran Song Andy Zeng Yinda Zhang 3DV 3DPC 208 1,918 0 18 Sep 2017
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 210 8,882 0 04 Feb 2016