Volumetric Environment Representation for Vision-Language Navigation

21 March 2024

Papers citing "Volumetric Environment Representation for Vision-Language Navigation"

50 / 56 papers shown

Title
Temporal Triplane Transformers as Occupancy World Models Haoran Xu Peixi Peng Guang Tan Yiqian Chang Yisen Zhao Yonghong Tian 158 0 0 10 Mar 2025
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method Xinshuai Song Weixing Chen Yang Liu Weikai Chen Guanbin Li Liang Lin 175 5 0 12 Dec 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 287 52 0 23 May 2024
EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI Tai Wang Xiaohan Mao Chenming Zhu Runsen Xu Ruiyuan Lyu ... Tianfan Xue Xihui Liu Cewu Lu Dahua Lin Jiangmiao Pang LM&Ro 70 73 0 26 Dec 2023
Omnidirectional Information Gathering for Knowledge Transfer-based Audio-Visual Navigation Jinyu Chen Wenguan Wang Siying Liu Hongsheng Li Yi Yang 82 8 0 20 Aug 2023
DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation Hanqing Wang Wei Liang Luc Van Gool Wenguan Wang LM&Ro 74 31 0 14 Aug 2023
Learning Navigational Visual Representations with Semantic Map Supervision Yicong Hong Yang Zhou Ruiyi Zhang Franck Dernoncourt Trung Bui Stephen Gould Hao Tan SSL 56 22 0 23 Jul 2023
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation Yu-Quan Wang Yuntao Chen Xingyu Liao Lue Fan Zhaoxiang Zhang 122 77 0 16 Jun 2023
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation Jialu Li Joey Tianyi Zhou DiffM 84 53 0 30 May 2023
SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving Yi Wei Linqing Zhao Wenzhao Zheng Zhengbiao Zhu Jie Zhou Jiwen Lu 3DPC 75 230 0 16 Mar 2023
Renderable Neural Radiance Map for Visual Navigation Obin Kwon Jeongho Park Songhwai Oh 67 55 0 01 Mar 2023
Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction Yuan-Ko Huang Wenzhao Zheng Yunpeng Zhang Jie Zhou Jiwen Lu 3DPC 74 300 0 15 Feb 2023
BEVBert: Multimodal Map Pre-training for Language-guided Navigation Dongyan An Yuankai Qi Yangguang Li Yan Huang Liangsheng Wang Tieniu Tan Jing Shao 74 62 0 08 Dec 2022
A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning Aishwarya Kamath Peter Anderson Su Wang Jing Yu Koh Alexander Ku Austin Waters Yinfei Yang Jason Baldridge Zarana Parekh LM&Ro 93 48 0 06 Oct 2022
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe Hongyang Li Chonghao Sima Jifeng Dai Wenhai Wang Lewei Lu ... Xiaosong Jia Siqian Liu Jianping Shi Dahua Lin Yu Qiao 145 145 0 12 Sep 2022
Target-Driven Structured Transformer Planner for Vision-Language Navigation Yusheng Zhao Jinyu Chen Chen Gao Wenguan Wang Lirong Yang Haibing Ren Huaxia Xia Si Liu LM&Ro 75 59 0 19 Jul 2022
BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers Zhiqi Li Wenhai Wang Hongyang Li Enze Xie Chonghao Sima Tong Lu Qiao Yu Jifeng Dai 125 1,289 0 31 Mar 2022
Counterfactual Cycle-Consistent Learning for Instruction Following and Generation in Vision-Language Navigation Hongru Wang Wei Liang Jianbing Shen Luc Van Gool Wenguan Wang 73 57 0 30 Mar 2022
EnvEdit: Environment Editing for Vision-and-Language Navigation Jialu Li Hao Tan Joey Tianyi Zhou 99 81 0 29 Mar 2022
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peifeng Wang Qi Wu AI4TS 92 74 0 22 Mar 2022
Cross-modal Map Learning for Vision and Language Navigation G. Georgakis Karl Schmeckpeper Karan Wanchoo Soham Dan E. Miltsakaki Dan Roth Kostas Daniilidis 74 64 0 10 Mar 2022
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev LM&Ro 92 142 0 23 Feb 2022
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments Muhammad Zubair Irshad Niluthpol Chowdhury Mithun Zachary Seymour Han-Pang Chiu S. Samarasekera Rakesh Kumar LM&Ro 68 49 0 26 Aug 2021
Airbert: In-domain Pretraining for Vision-and-Language Navigation Pierre-Louis Guhur Makarand Tapaswi Shizhe Chen Ivan Laptev Cordelia Schmid LM&Ro 49 139 0 20 Aug 2021
3D Neural Scene Representations for Visuomotor Control Yunzhu Li Shuang Li Vincent Sitzmann Pulkit Agrawal Antonio Torralba 114 141 0 08 Jul 2021
Vision-Language Navigation with Random Environmental Mixup Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen LM&Ro 92 86 0 15 Jun 2021
Scene-Intuitive Agent for Remote Embodied Visual Grounding Xiangru Lin Guanbin Li Yizhou Yu LM&Ro 61 52 0 24 Mar 2021
3D Semantic Scene Completion: a Survey Luis Roldão Raoul de Charette Anne Verroust-Blondet 3DV 93 96 0 12 Mar 2021
Structured Scene Memory for Vision-Language Navigation Hanqing Wang Wenguan Wang Wei Liang Caiming Xiong Jianbing Shen LM&Ro 77 114 0 05 Mar 2021
Semantics for Robotic Mapping, Perception and Interaction: A Survey Sourav Garg Niko Sünderhauf Feras Dayoub D. Morrison Akansel Cosgun ... Tat-Jun Chin Ian Reid Stephen Gould Peter Corke Michael Milford 101 117 0 02 Jan 2021
Topological Planning with Transformers for Vision-and-Language Navigation Kevin Chen Junshen K. Chen Jo Chuang Nathan Tsoi Silvio Savarese LM&Ro 82 99 0 09 Dec 2020
A Recurrent Vision-and-Language BERT for Navigation Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould LM&Ro 104 301 0 26 Nov 2020
Learning 3D Dynamic Scene Representations for Robot Manipulation Zhenjia Xu Zhanpeng He Jiajun Wu Shuran Song 52 55 0 03 Nov 2020
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 222 134 0 19 Oct 2020
Deformable DETR: Deformable Transformers for End-to-End Object Detection Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang Jifeng Dai ViT 224 5,080 0 08 Oct 2020
Semantic MapNet: Building Allocentric Semantic Maps and Representations from Egocentric Views Vincent Cartillier Zhile Ren Neha Jain Stefan Lee Irfan Essa Dhruv Batra 3DPC 85 74 0 02 Oct 2020
Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D Jonah Philion Sanja Fidler 94 1,051 0 13 Aug 2020
Pillar-based Object Detection for Autonomous Driving Yue Wang Alireza Fathi Abhijit Kundu David A. Ross C. Pantofaru Thomas Funkhouser Justin Solomon 3DPC 73 217 0 20 Jul 2020
Active Visual Information Gathering for Vision-Language Navigation Hanqing Wang Wenguan Wang Tianmin Shu Wei Liang Jianbing Shen 128 73 0 15 Jul 2020
Evolving Graphical Planner: Contextual Global Planning for Vision-and-Language Navigation Zhiwei Deng Karthik Narasimhan Olga Russakovsky 66 87 0 11 Jul 2020
Neural Topological SLAM for Visual Navigation Devendra Singh Chaplot Ruslan Salakhutdinov Abhinav Gupta Saurabh Gupta 107 295 0 25 May 2020
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web Arjun Majumdar Ayush Shrivastava Stefan Lee Peter Anderson Devi Parikh Dhruv Batra LM&Ro 145 233 0 30 Apr 2020
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions Johanna Wald Helisa Dhamo Nassir Navab Federico Tombari 3DV 3DPC 71 217 0 08 Apr 2020
Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training Weituo Hao Chunyuan Li Xiujun Li Lawrence Carin Jianfeng Gao LM&Ro 75 279 0 25 Feb 2020
Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks Fengda Zhu Yi Zhu Xiaojun Chang Xiaodan Liang LRM 67 240 0 18 Nov 2019
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Joey Tianyi Zhou VLM MLLM 247 2,483 0 20 Aug 2019
Chasing Ghosts: Instruction Following as Bayesian State Tracking Peter Anderson Ayush Shrivastava Devi Parikh Dhruv Batra Stefan Lee 56 74 0 03 Jul 2019
REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments Yuankai Qi Qi Wu Peter Anderson Xinze Wang Wenjie Wang Chunhua Shen Anton Van Den Hengel LM&Ro 93 324 0 23 Apr 2019
Objects as Points Xingyi Zhou Dequan Wang Philipp Krahenbuhl 3DPC 110 3,257 0 16 Apr 2019
Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout Hao Tan Licheng Yu Joey Tianyi Zhou SSL 88 318 0 08 Apr 2019