Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

27 May 2024

Li Chen

Papers citing "Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability"

23 / 73 papers shown

Title
DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving Xuemeng Yang Licheng Wen Yukai Ma Jianbiao Mei Xin Li ... Min Dou Botian Shi Liang He Yong-Jin Liu Yu Qiao VGen 35 16 0 01 Aug 2024
SimGen: Simulator-conditioned Driving Scene Generation Yunsong Zhou Michael Simon Zhenghao Peng Sicheng Mo Hongzi Zhu Minyi Guo Bolei Zhou VGen 49 11 0 13 Jun 2024
UMAD: Unsupervised Mask-Level Anomaly Detection for Autonomous Driving Daniel Bogdoll Noël Ollick Tim Joseph J. Marius Zöllner 37 1 0 10 Jun 2024
Learning Temporally Consistent Video Depth from Video Diffusion Priors Jiahao Shao Yuanbo Yang Hongyu Zhou Youmin Zhang Yujun Shen Matteo Poggi Yiyi Liao VGen DiffM MDE 42 38 0 03 Jun 2024
Generalized Predictive Model for Autonomous Driving Jiazhi Yang Shenyuan Gao Yihang Qiu Li Chen Tianyu Li ... Ping Luo Jun Zhang Andreas Geiger Yu Qiao Hongyang Li VGen 73 57 0 14 Mar 2024
Genie: Generative Interactive Environments Jake Bruce Michael Dennis Ashley D. Edwards Jack Parker-Holder Yuge Shi ... Konrad Zolna Jeff Clune Nando de Freitas Satinder Singh Tim Rocktaschel VGen VLM 74 144 0 23 Feb 2024
Using Left and Right Brains Together: Towards Vision and Language Planning Jun Cen Chenfei Wu Xiao Liu Sheng-Siang Yin Yixuan Pei Jinglong Yang Qifeng Chen Nan Duan Jianguo Zhang 60 3 0 16 Feb 2024
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion Shiyuan Yang Liang Hou Haibin Huang Chongyang Ma Pengfei Wan Di Zhang Xiaodong Chen Jing Liao VGen DiffM 66 77 0 05 Feb 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 114 215 0 23 Jan 2024
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao-Liang Weng Ying Shan VGen DiffM 120 275 0 17 Jan 2024
Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning Zhiting Hu Tianmin Shu LLMAG LM&Ro LRM 102 34 0 08 Dec 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 158 1,016 0 25 Nov 2023
Video Language Planning Yilun Du Mengjiao Yang Peter R. Florence Fei Xia Ayzaan Wahid ... Pieter Abbeel Josh Tenenbaum L. Kaelbling Andy Zeng Jonathan Tompson PINN LM&Ro 96 85 0 16 Oct 2023
End-to-end Autonomous Driving: Challenges and Frontiers Li Chen Peng Wu Kashyap Chitta Bernhard Jaeger Andreas Geiger Hongyang Li 3DV 49 264 0 29 Jun 2023
VAD: Vectorized Scene Representation for Efficient Autonomous Driving Bo Jiang Shaoyu Chen Qing Xu Bencheng Liao Jiajie Chen Helong Zhou Qian Zhang Wenyu Liu Chang Huang Xinggang Wang 110 194 0 21 Mar 2023
Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling Peng Wu Li Chen Hongyang Li Xiaosong Jia Junchi Yan Yu Qiao 89 28 0 03 Jan 2023
Model-Based Imitation Learning for Urban Driving Anthony Hu Gianluca Corrado Nicolas Griffiths Zak Murez Corina Gurau Hudson Yeo Alex Kendall R. Cipolla Jamie Shotton 112 135 0 14 Oct 2022
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe Hongyang Li Chonghao Sima Jifeng Dai Wenhai Wang Lewei Lu ... Xiaosong Jia Siqian Liu Jianping Shi Dahua Lin Yu Qiao 93 138 0 12 Sep 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 107 110 0 23 Jun 2022
TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving Kashyap Chitta Aditya Prakash Bernhard Jaeger Zehao Yu Katrin Renz Andreas Geiger ViT 104 295 0 31 May 2022
FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras Anthony Hu Zak Murez Nikhil C. Mohan Sofía Dudas Jeffrey Hawke Vijay Badrinarayanan R. Cipolla Alex Kendall 142 254 0 21 Apr 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 245 484 0 20 Apr 2021
Deep Dynamics Models for Learning Dexterous Manipulation Anusha Nagabandi K. Konolige Sergey Levine Vikash Kumar 148 408 0 25 Sep 2019