Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration

8 March 2022

Xiwen Liang

Fengda Zhu

Lingling Li

Hang Xu

Xiaodan Liang

LM&Ro

VLM

ArXiv PDF HTML

Papers citing "Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration"

23 / 23 papers shown

Title
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 63 18 0 31 Dec 2024
GSON: A Group-based Social Navigation Framework with Large Multimodal Model Shangyi Luo Ji Zhu Peng Sun Yuhong Deng Cunjun Yu Anxing Xiao Xueqian Wang LM&Ro 50 1 0 26 Sep 2024
Can ChatGPT assist visually impaired people with micro-navigation? Junxian He Shrinivas J. Pundlik Gang Luo 22 0 0 31 Jul 2024
ET tu, CLIP? Addressing Common Object Errors for Unseen Environments Ye Won Byun Cathy Jiao Shahriar Noroozizadeh Jimin Sun Rosa Vitiello VLM 44 1 0 25 Jun 2024
Correctable Landmark Discovery via Large Models for Vision-Language Navigation Bingqian Lin Yunshuang Nie Ziming Wei Yi Zhu Hang Xu Shikui Ma Jianzhuang Liu Xiaodan Liang LM&Ro 37 6 0 29 May 2024
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains Zhaohuan Zhan Lisha Yu Sijie Yu Guang Tan LLMAG LM&Ro 56 10 0 17 May 2024
AIGeN: An Adversarial Approach for Instruction Generation in VLN Niyati Rawal Roberto Bigazzi Lorenzo Baraldi Rita Cucchiara GAN 52 4 0 15 Apr 2024
Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion Tianlin Li Jiandong Jin Chenglong Li Jin Tang Cheng Zhang Wei Wang VLM 17 13 0 17 Dec 2023
Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI Yaoxian Song Penglei Sun Haoyu Liu Li Zhixu Wei Song Yanghua Xiao Xiaofang Zhou LM&Ro 53 13 0 07 Nov 2023
GridMM: Grid Memory Map for Vision-and-Language Navigation Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Shuqiang Jiang 33 52 0 24 Jul 2023
Learning Vision-and-Language Navigation from YouTube Videos Kun-Li Channing Lin Peihao Chen Di Huang Thomas H. Li Mingkui Tan Chuang Gan LM&Ro 30 25 0 22 Jul 2023
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation Xiwen Liang Liang Ma Shanshan Guo Jianhua Han Hang Xu Shikui Ma Xiaodan Liang LM&Ro LLMAG 88 4 0 17 Jun 2023
A Dual Semantic-Aware Recurrent Global-Adaptive Network For Vision-and-Language Navigation Liuyi Wang Zongtao He Jiagui Tang Ronghao Dang Naijia Wang Chengju Liu Qi Chen 27 17 0 05 May 2023
Multimodal Grounding for Embodied AI via Augmented Reality Headsets for Natural Language Driven Task Planning Selma Wanna Fabian Parra R. Valner Karl Kruusamäe Mitch Pryor LM&Ro 26 2 0 26 Apr 2023
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments Dongyan An H. Wang Wenguan Wang Zun Wang Yan Huang Keji He Liang Wang 58 63 0 06 Apr 2023
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey Tianlin Li Guangyao Chen Guangwu Qian Pengcheng Gao Xiaoyong Wei Yaowei Wang Yonghong Tian Wen Gao AI4CE VLM 31 202 0 20 Feb 2023
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation Bingqian Lin Yi Zhu Xiaodan Liang Liang Lin Jian-zhuo Liu CoGe LM&Ro 41 3 0 13 Feb 2023
RREx-BoT: Remote Referring Expressions with a Bag of Tricks Gunnar A. Sigurdsson Jesse Thomason Gaurav Sukhatme Robinson Piramuthu LM&Ro 27 8 0 30 Jan 2023
Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments Ting Wang Zongkai Wu Feiyu Yao Donglin Wang 51 5 0 11 Jan 2023
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks Xiao Liu Kaixuan Ji Yicheng Fu Weng Lam Tam Zhengxiao Du Zhilin Yang Jie Tang VLM 238 806 0 14 Oct 2021
WARP: Word-level Adversarial ReProgramming Karen Hambardzumyan Hrant Khachatrian Jonathan May AAML 254 342 0 01 Jan 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 260 498 0 07 Jun 2018