UniWorld: Autonomous Driving Pre-training via World Models

14 August 2023

Papers citing "UniWorld: Autonomous Driving Pre-training via World Models"

25 / 25 papers shown

Title
A Survey of World Models for Autonomous Driving Tuo Feng Wenguan Wang Yue Yang VGen 119 7 0 20 Jan 2025
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion Yiming Li Zhiding Yu Chris Choy Chaowei Xiao J. Álvarez Sanja Fidler Chen Feng Anima Anandkumar ViT 52 220 0 23 Feb 2023
Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline Yangguang Li Bin Huang Zeren Chen Yufeng Cui Feng Liang ... Fenggang Liu Enze Xie Lu Sheng Wanli Ouyang Jing Shao 73 43 0 29 Jan 2023
STS: Surround-view Temporal Stereo for Multi-view 3D Detection Zengran Wang Chen Min Zheng Ge Yinhao Li Zeming Li Hongyu Yang Dihe Huang MDE 54 60 0 22 Aug 2022
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning Shengchao Hu Li Chen Peng Wu Hongyang Li Junchi Yan Dacheng Tao 50 235 0 15 Jul 2022
PolarFormer: Multi-camera 3D Object Detection with Polar Transformer Yan Jiang Li Zhang Zhenwei Miao Xiatian Zhu Jin Gao Weiming Hu Yulin Jiang ViT 47 168 0 30 Jun 2022
Unifying Voxel-based Representation with Transformer for 3D Object Detection Yanwei Li Yilun Chen Xiaojuan Qi Zeming Li Jian Sun Jiaya Jia ViT 49 249 0 01 Jun 2022
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving Yunpeng Zhang Zheng Hua Zhu Wenzhao Zheng Junjie Huang Guan Huang Jie Zhou Jiwen Lu 60 190 0 19 May 2022
M $^2$ BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation Enze Xie Zhiding Yu Daquan Zhou Jonah Philion Anima Anandkumar Sanja Fidler Ping Luo J. Álvarez 79 182 0 11 Apr 2022
BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers Zhiqi Li Wenhai Wang Hongyang Li Enze Xie Chonghao Sima Tong Lu Qiao Yu Jifeng Dai 96 1,269 0 31 Mar 2022
FUTR3D: A Unified Sensor Fusion Framework for 3D Detection Xuanyao Chen Tianyuan Zhang Yue Wang Yilun Wang Hang Zhao 3DPC 55 234 0 20 Mar 2022
PETR: Position Embedding Transformation for Multi-View 3D Object Detection Yingfei Liu Tiancai Wang Xinming Zhang Jian Sun 3DPC 81 532 0 10 Mar 2022
Block-NeRF: Scalable Large Scene Neural View Synthesis Matthew Tancik Vincent Casser Xinchen Yan Sabeek Pradhan B. Mildenhall Pratul P. Srinivasan Jonathan T. Barron Henrik Kretzschmar AI4CE 60 813 0 10 Feb 2022
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries Yue Wang Vitor Campagnolo Guizilini Tianyuan Zhang Yilun Wang Hang Zhao Justin Solomon 3DPC ViT 72 705 0 13 Oct 2021
AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network Zizhuang Wei Qingtian Zhu Chen Min Yisong Chen Guoping Wang 3DV 120 143 0 09 Aug 2021
Deep Learning for Multi-View Stereo via Plane Sweep: A Survey Qingtian Zhu Chen Min Zizhuang Wei Yisong Chen Guoping Wang 3DV 24 27 0 18 Jun 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 156 2,785 0 15 Jun 2021
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields Jonathan T. Barron B. Mildenhall Matthew Tancik Peter Hedman Ricardo Martín Brualla Pratul P. Srinivasan 62 1,945 0 24 Mar 2021
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation Xinge Zhu Hui Zhou Tai Wang Fangzhou Hong Yuexin Ma Wei Li Hongsheng Li Dahua Lin 3DPC 45 532 0 19 Nov 2020
Mastering Atari with Discrete World Models Danijar Hafner Timothy Lillicrap Mohammad Norouzi Jimmy Ba DRL 66 834 0 05 Oct 2020
Bootstrap your own latent: A new approach to self-supervised Learning Jean-Bastien Grill Florian Strub Florent Altché Corentin Tallec Pierre Harvey Richemond ... M. G. Azar Bilal Piot Koray Kavukcuoglu Rémi Munos Michal Valko SSL 251 6,718 0 13 Jun 2020
nuScenes: A multimodal dataset for autonomous driving Holger Caesar Varun Bankiti Alex H. Lang Sourabh Vora Venice Erin Liong Qiang Xu Anush Krishnan Yuxin Pan G. Baldan Oscar Beijbom 3DPC 226 5,653 0 26 Mar 2019
MVSNet: Depth Inference for Unstructured Multi-view Stereo Yao Yao Zixin Luo Shiwei Li Tian Fang Long Quan MDE 3DV 105 1,207 0 07 Apr 2018
World Models David R Ha Jürgen Schmidhuber SyDa 90 1,050 0 27 Mar 2018
Stochastic Video Generation with a Learned Prior Emily L. Denton Rob Fergus VGen 68 525 0 21 Feb 2018