Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving

16 September 2024

Papers citing "Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving"

4 / 4 papers shown

Title
V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving Jannik Lübberstedt Esteban Rivera Nico Uhlemann Markus Lienkamp MLLM 63 0 0 30 Apr 2025
ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models Amirhosein Chahe Lifeng Zhou LRM 35 0 0 14 Apr 2025
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment Katrin Renz Long Chen Elahe Arani Oleg Sinavski MLLM 65 0 0 12 Mar 2025
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models Xiaoyu Tian Junru Gu Bailin Li Yicheng Liu Yang Wang Chenxu Hu Kun Zhan Peng Jia Xianpeng Lang Hang Zhao VLM 70 125 0 19 Feb 2024