Self-Monitoring Navigation Agent via Auxiliary Progress Estimation

10 January 2019

Zuxuan Wu

ArXiv (abs)PDF HTML Github (122★)

Papers citing "Self-Monitoring Navigation Agent via Auxiliary Progress Estimation"

43 / 43 papers shown

Title
FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models Hengxing Cai Jinhan Dong Jingjun Tan Jingcheng Deng Changhao Nai Zhifeng Gao Haidong Wang Zicheng Su Agachai Sumalee Renxin Zhong 51 1 0 19 May 2025
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard Yifei Dong Fengyi Wu Qi He Heng Li Minghan Li ... Yuxuan Zhou Jingdong Sun Qi Dai Zhi-Qi Cheng Alexander G. Hauptmann LM&Ro 81 0 0 18 Mar 2025
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments Sangmim Song S. Kodagoda A. Gunatilake Marc G. Carmichael Karthick Thiyagarajan Jodi Martin LM&Ro 137 1 0 28 Oct 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 113 27 0 12 Mar 2024
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling Tsu-Jui Fu Xinze Wang Matthew F. Peterson Scott T. Grafton Miguel P. Eckstein William Yang Wang 91 43 0 17 Nov 2019
The Regretful Agent: Heuristic-Aided Navigation through Progress Estimation Chih-Yao Ma Zuxuan Wu G. Al-Regib Caiming Xiong Z. Kira LM&Ro 85 174 0 05 Mar 2019
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation Xin Eric Wang Qiuyuan Huang Asli Celikyilmaz Jianfeng Gao Dinghan Shen Yuan-fang Wang William Yang Wang Lei Zhang LM&Ro SSL 103 539 0 25 Nov 2018
Gibson Env: Real-World Perception for Embodied Agents F. Xia Amir Zamir Zhi-Yang He Alexander Sax Jitendra Malik Silvio Savarese AI4CE LM&Ro 79 828 0 31 Aug 2018
On Evaluation of Embodied Navigation Agents Peter Anderson Angel X. Chang Devendra Singh Chaplot Alexey Dosovitskiy Saurabh Gupta ... Jana Kosecka Jitendra Malik Roozbeh Mottaghi Manolis Savva Amir Zamir 117 801 0 18 Jul 2018
Talk the Walk: Navigating New York City through Grounded Dialogue H. D. Vries Kurt Shuster Dhruv Batra Devi Parikh Jason Weston Douwe Kiela 70 124 0 09 Jul 2018
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 317 503 0 07 Jun 2018
Guided Feature Transformation (GFT): A Neural Language Grounding Module for Embodied Agents Haonan Yu Xiaochen Lian Haichao Zhang Wenyuan Xu LM&Ro 50 21 0 22 May 2018
Visual Representations for Semantic Target Driven Navigation Arsalan Mousavian Alexander Toshev Marek Fiser Jana Kosecka Ayzaan Wahid James Davidson 67 202 0 15 May 2018
End-to-End Dense Video Captioning with Masked Transformer Luowei Zhou Yingbo Zhou Jason J. Corso R. Socher Caiming Xiong 94 529 0 03 Apr 2018
Learning to Navigate in Cities Without a Map Piotr Wojciech Mirowski Matthew Koichi Grimes Mateusz Malinowski Karl Moritz Hermann Keith Anderson Denis Teplyashin Karen Simonyan Koray Kavukcuoglu Andrew Zisserman R. Hadsell SSL HAI 99 319 0 31 Mar 2018
Unsupervised Predictive Memory in a Goal-Directed Agent Greg Wayne Chia-Chun Hung David Amos M. Berk Mirza Arun Ahuja ... David Silver Koray Kavukcuoglu M. Botvinick Demis Hassabis Timothy Lillicrap 81 192 0 28 Mar 2018
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 230 435 0 27 Mar 2018
Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning for Planned-Ahead Vision-and-Language Navigation Xin Eric Wang Wenhan Xiong Hongmin Wang William Yang Wang 76 201 0 21 Mar 2018
Actor and Action Video Segmentation from a Sentence Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek VLM 73 150 0 20 Mar 2018
Omnidirectional CNN for Visual Place Recognition and Navigation Tsun-Hsuan Wang Hung-Jui Huang Juan-Ting Lin Chan-Wei Hu Kuo-Hao Zeng Min Sun 71 68 0 12 Mar 2018
IQA: Visual Question Answering in Interactive Environments Daniel Gordon Aniruddha Kembhavi Mohammad Rastegari Joseph Redmon Dieter Fox Ali Farhadi LM&Ro 91 391 0 09 Dec 2017
Embodied Question Answering Abhishek Das Samyak Datta Georgia Gkioxari Stefan Lee Devi Parikh Dhruv Batra LM&Ro 95 651 0 30 Nov 2017
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton Van Den Hengel LM&Ro 98 1,320 0 20 Nov 2017
Attend and Interact: Higher-Order Object Interactions for Video Understanding Chih-Yao Ma Asim Kadav I. Melvin Z. Kira G. Al-Regib H. Graf 67 145 0 16 Nov 2017
Matterport3D: Learning from RGB-D Data in Indoor Environments Angel X. Chang Angela Dai Thomas Funkhouser Maciej Halber Matthias Nießner Manolis Savva Shuran Song Andy Zeng Yinda Zhang 3DV 3DPC 194 1,914 0 18 Sep 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 728 132,199 0 12 Jun 2017
Visual Semantic Planning using Deep Successor Representations Yuke Zhu Daniel Gordon Eric Kolve Dieter Fox Li Fei-Fei Abhinav Gupta Roozbeh Mottaghi Ali Farhadi 79 141 0 23 May 2017
Mapping Instructions and Visual Observations to Actions with Reinforcement Learning Dipendra Kumar Misra John Langford Yoav Artzi 76 247 0 28 Apr 2017
Towards Automatic Learning of Procedures from Web Instructional Videos Luowei Zhou Chenliang Xu Jason J. Corso EgoV 75 830 0 28 Mar 2017
Visual Dialog Abhishek Das Satwik Kottur Khushi Gupta Avi Singh Deshraj Yadav José M. F. Moura Devi Parikh Dhruv Batra 144 1,001 0 26 Nov 2016
Learning to Navigate in Complex Environments Piotr Wojciech Mirowski Razvan Pascanu Fabio Viola Hubert Soyer Andy Ballard ... Ross Goroshin Laurent Sifre Koray Kavukcuoglu D. Kumaran R. Hadsell 107 880 0 11 Nov 2016
Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning Yuke Zhu Roozbeh Mottaghi Eric Kolve Joseph J. Lim Abhinav Gupta Li Fei-Fei Ali Farhadi VGen 71 1,527 0 16 Sep 2016
Visual Relationship Detection with Language Priors Cewu Lu Ranjay Krishna Michael S. Bernstein Li Fei-Fei VLM 79 1,141 0 31 Jul 2016
Adversarial Feature Learning Jiasen Lu Philipp Krahenbuhl Trevor Darrell GAN 115 1 0 31 May 2016
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning Michal Kempka Marek Wydmuch Grzegorz Runc Jakub Toczek Wojciech Ja'skowski 77 700 0 06 May 2016
Incorporating Structural Alignment Biases into an Attentional Neural Translation Model Trevor Cohn Cong Duy Vu Hoang Ekaterina Vymolova Kaisheng Yao Chris Dyer Gholamreza Haffari 73 174 0 06 Jan 2016
MovieQA: Understanding Stories in Movies through Question-Answering Makarand Tapaswi Yukun Zhu Rainer Stiefelhagen Antonio Torralba R. Urtasun Sanja Fidler 115 751 0 09 Dec 2015
Natural Language Object Retrieval Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell ObjD 97 554 0 13 Nov 2015
Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach Marcus Rohrbach Ronghang Hu Trevor Darrell Bernt Schiele 80 497 0 12 Nov 2015
Alignment-based compositional semantics for instruction following Jacob Andreas Dan Klein 68 102 0 26 Aug 2015
Listen, Attend, and Walk: Neural Mapping of Navigational Instructions to Action Sequences Hongyuan Mei Joey Tianyi Zhou Matthew R. Walter LM&Ro 90 244 0 12 Jun 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 214 5,497 0 03 May 2015
Learning Models for Following Natural Language Directions in Unknown Environments Sachithra Hemachandra Felix Duvallet T. Howard Nicholas Roy A. Stentz Matthew R. Walter LM&Ro 80 91 0 17 Mar 2015