Title
Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving Zongchuang Zhao Haoyu Fu Dingkang Liang Xin Zhou Dingyuan Zhang Hongwei Xie Bing Wang Xiang Bai MLLM VLM 49 0 0 13 May 2025
UncAD: Towards Safe End-to-end Autonomous Driving via Online Map Uncertainty Pengxuan Yang Yupeng Zheng Qichao Zhang Kefei Zhu Zebin Xing Qiao Lin Yun-Fu Liu Zhiguo Su Dongbin Zhao 32 0 0 17 Apr 2025
3D CoCa: Contrastive Learners are 3D Captioners Ting Huang Z. Zhang Yixuan Wang Hao Tang 27 0 0 13 Apr 2025
NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving Fuhao Li Huan Jin Bin-Bin Gao Liaoyuan Fan Lihui Jiang Long Zeng 63 0 0 28 Mar 2025
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving Zebin Xing Xiaotian Zhang Yang Hu Bo Jiang Tong He Qian Zhang Xiaoxiao Long Wei Yin 64 3 0 07 Mar 2025
Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion Li Liang Naveed Akhtar J. Vice Xiangrui Kong Ajmal Saeed Mian 47 1 0 13 Jan 2025
Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving Kairui Ding Boyuan Chen Yuchen Su Huan-ang Gao Bu Jin ... Wuqiang Zhang Xiaohui Li Paul Barsch Hongyang Li Hao Zhao 52 3 0 10 Sep 2024
MAVIS: Mathematical Visual Instruction Tuning Renrui Zhang Xinyu Wei Dongzhi Jiang Yichi Zhang Ziyu Guo ... Aojun Zhou Bin Wei Shanghang Zhang Peng Gao Hongsheng Li MLLM 36 25 0 11 Jul 2024
PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning Yupeng Zheng Zebin Xing Qichao Zhang Bu Jin Pengfei Li ... Zhongpu Xia Kun Zhan Xianpeng Lang Yaran Chen Dongbin Zhao LM&Ro LRM LLMAG 62 14 0 03 Jun 2024
Context and Geometry Aware Voxel Transformer for Semantic Scene Completion Zhuopu Yu Runmin Zhang Jiacheng Ying Junchen Yu Xiaohai Hu Lun Luo Siyuan Cao Hui-Liang Shen ViT 54 12 0 22 May 2024
Instance-free Text to Point Cloud Localization with Relative Position Awareness Lichao Wang Zhihao Yuan Jinke Ren Shuguang Cui Zhen Li 41 0 0 27 Apr 2024
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models Xiaoyu Tian Junru Gu Bailin Li Yicheng Liu Yang Wang Chenxu Hu Kun Zhan Peng Jia Xianpeng Lang Hang Zhao VLM 70 125 0 19 Feb 2024
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 159 344 0 11 Oct 2022
Contextual Modeling for 3D Dense Captioning on Point Clouds Yufeng Zhong Longdao Xu Jiebo Luo Lin Ma 44 15 0 08 Oct 2022
DRAMA: Joint Risk Localization and Captioning in Driving Srikanth Malla Chiho Choi Isht Dwivedi Joonhyang Choi Jiachen Li 107 87 0 22 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras Anthony Hu Zak Murez Nikhil C. Mohan Sofía Dudas Jeffrey Hawke Vijay Badrinarayanan R. Cipolla Alex Kendall 139 254 0 21 Apr 2021