ADAPT: Action-aware Driving Caption Transformer

1 February 2023

Bu Jin

Xinyi Liu

Yupeng Zheng

Pengfei Li

Hao Zhao

Tong Zhang

Yuhang Zheng

Guyue Zhou

Jingjing Liu

ArXiv (abs)PDF HTML Github (398★)

Papers citing "ADAPT: Action-aware Driving Caption Transformer"

50 / 55 papers shown

Title
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning Zewei Zhou Tianhui Cai Seth Z. Zhao Yun Zhang Zhiyu Huang Bolei Zhou Jiaqi Ma LRM VLM 25 0 0 16 Jun 2025
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models Haohan Chi Huan-ang Gao Ziming Liu Jianing Liu Chenyu Liu ... Leichen Wang Xingtao Hu Hao Sun Hang Zhao Hao Zhao VLM 96 0 0 29 May 2025
Temporal Object Captioning for Street Scene Videos from LiDAR Tracks Vignesh Gopinathan Urs Zimmermann Michael Arnold Matthias Rottmann 75 0 0 22 May 2025
PADriver: Towards Personalized Autonomous Driving Genghua Kou Fan Jia Weixin Mao Yang Liu Yucheng Zhao Ziheng Zhang Osamu Yoshie Tiancai Wang You Li Xinming Zhang 109 0 0 08 May 2025
UncAD: Towards Safe End-to-end Autonomous Driving via Online Map Uncertainty Pengxuan Yang Yupeng Zheng Qichao Zhang Kefei Zhu Zebin Xing Qiao Lin Yun-Fu Liu Zhiguo Su Dongbin Zhao 74 1 0 17 Apr 2025
Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction Zongzheng Zhang Xinrun Li Sizhe Zou Guoxuan Chi Siqi Li ... Guoliang Wang Guantian Zheng Leichen Wang Hang Zhao Hao Zhao 150 0 0 10 Mar 2025
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving Zebin Xing Xinsong Zhang Yang Hu Bo Jiang Tong He Qian Zhang Xiaoxiao Long Wei Yin 126 11 0 07 Mar 2025
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models J.N. Zhang Xuan Yang Tianfu Wang Yu Yao Aleksandr Petiushko B. Li 135 0 0 28 Feb 2025
Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model Bo-Kai Ruan Hao-Tang Tsui Yung-Hui Li Hong-Han Shuai LM&Ro 181 10 0 20 Feb 2025
DeepRTL: Bridging Verilog Understanding and Generation with a Unified Representation Model Yi Liu Changran Xu Yunhao Zhou Zhiyu Li Qiang Xu VLM 122 7 0 20 Feb 2025
Embodied Scene Understanding for Vision Language Models via MetaVQA Weizhen Wang Chenda Duan Zhenghao Peng Yuxin Liu Bolei Zhou LM&Ro 150 1 0 17 Jan 2025
DriveLM: Driving with Graph Visual Question Answering Chonghao Sima Katrin Renz Kashyap Chitta Lawrence Yunliang Chen Hanxue Zhang Chengen Xie Jens Beißwenger Ping Luo Andreas Geiger Hongyang Li 299 208 0 17 Jan 2025
H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving Tian Jin Yuxiao Luo Yue Ma Yu Qiao Yali Wang Mamba 120 1 0 08 Jan 2025
Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving Shota Yamazaki Chenyu Zhang Takuya Nanri Akio Shigekane Siyuan Wang Jo Nishiyama Tao Chu Kohei Yokosawa LRM 104 1 0 15 Nov 2024
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance Zhangwei Gao Zhe Chen Erfei Cui Yiming Ren Weiyun Wang ... Lewei Lu Tong Lu Yu Qiao Jifeng Dai Wenhai Wang VLM 174 40 0 21 Oct 2024
Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving Sihao Wu Jiaxu Liu Xiangyu Yin Guangliang Cheng Xingyu Zhao Meng Fang Xinping Yi Xiaowei Huang 87 1 0 16 Oct 2024
Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking Wei Zhang Pengfei Li Junli Wang Bo Shen Qihao Jin ... Shibo Rui Yang Yu Wenchao Ding Peng Li Yilun Chen 110 0 0 11 Oct 2024
Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models Yizhou Huang Yihua Cheng Kezhi Wang LRM 57 2 0 30 Sep 2024
KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems Zixuan Wang Bo Yu Junzhe Zhao Wenhao Sun Sai Hou Shuai Liang Xing Hu Yinhe Han Yiming Gan 159 4 0 23 Sep 2024
MulCPred: Learning Multi-modal Concepts for Explainable Pedestrian Action Prediction Yan Feng Alexander Carballo Keisuke Fujii Robin Karlsson Ming Ding K. Takeda 64 0 0 14 Sep 2024
Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving Kairui Ding Boyuan Chen Yuchen Su Huan-ang Gao Bu Jin ... Wuqiang Zhang Xiaohui Li Paul Barsch Hongyang Li Hao Zhao 105 7 0 10 Sep 2024
ChatSUMO: Large Language Model for Automating Traffic Scenario Generation in Simulation of Urban MObility Shuyang Li Talha Azfar Ruimin Ke LLMAG 110 16 0 29 Aug 2024
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving Hidehisa Arai Keita Miwa Kento Sasaki Yu Yamaguchi Kohei Watanabe Shunsuke Aoki Issei Yamamoto 107 14 0 19 Aug 2024
Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis Hiroshi Takato Hiroshi Tsutsui Komei Soda Hidetaka Kamigaito VLM 60 1 0 03 Aug 2024
Large Language Models for Human-like Autonomous Driving: A Survey Yun Li Kai Katsumata Ehsan Javanmardi Manabu Tsukada LM&MA 88 11 0 27 Jul 2024
Tell Me Where You Are: Multimodal LLMs Meet Place Recognition Zonglin Lyu Juexiao Zhang Mingxuan Lu Yiming Li Chen Feng 86 5 0 25 Jun 2024
Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? Mingqian Feng Yunlong Tang Zeliang Zhang Chenliang Xu 67 3 0 18 Jun 2024
DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences Yidong Huang Jacob Sansom Ziqiao Ma Felix Gervits Joyce Chai 124 18 0 05 Jun 2024
PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning Yupeng Zheng Zebin Xing Qichao Zhang Bu Jin Pengfei Li ... Zhongpu Xia Kun Zhan Xianpeng Lang Yaran Chen Dongbin Zhao LM&Ro LRM LLMAG 130 21 0 03 Jun 2024
Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models Yi Yang Qingwen Zhang Kei Ikemura Nazre Batool John Folkesson VLM 77 2 0 31 May 2024
On the Utility of External Agent Intention Predictor for Human-AI Coordination Chenxu Wang Zilong Chen Angelo Cangelosi Huaping Liu 77 1 0 03 May 2024
Can Vehicle Motion Planning Generalize to Realistic Long-tail Scenarios? Marcel Hallgarten Julian Zapata Martin Stoll Katrin Renz Andreas Zell 104 13 0 11 Apr 2024
Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs Yiqun Duan Qiang Zhang Renjing Xu 135 12 0 07 Apr 2024
Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs Junhao Chen Xiang Li Xiaojun Ye Chao Li Zhaoxin Fan Hao Zhao VGen 3DV 247 5 0 05 Apr 2024
TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes Bu Jin Yupeng Zheng Pengfei Li Weize Li Yuhang Zheng ... Kun Zhan Peng Jia Xiaoxiao Long Yilun Chen Hao Zhao 3DV 114 20 0 28 Mar 2024
P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors Zhou Jiang Zhenxin Zhu Pengfei Li Huan-ang Gao Tianyuan Yuan Yongliang Shi Hang Zhao Hao Zhao 94 28 0 15 Mar 2024
MonoOcc: Digging into Monocular Semantic Occupancy Prediction Yupeng Zheng Xiang Li Pengfei Li Yuhang Zheng Bu Jin Chengliang Zhong Xiaoxiao Long Hao Zhao Qichao Zhang 81 30 0 13 Mar 2024
Embodied Understanding of Driving Scenarios Yunsong Zhou Linyan Huang Qingwen Bu Jia Zeng Tianyu Li Hang Qiu Hongzi Zhu Minyi Guo Yu Qiao Hongyang Li LM&Ro 103 33 0 07 Mar 2024
RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model Jianhao Yuan Shuyang Sun Daniel Omeiza Bo Zhao Paul Newman Lars Kunze Matthew Gadd LRM 111 58 0 16 Feb 2024
Using Left and Right Brains Together: Towards Vision and Language Planning Jun Cen Chenfei Wu Xiao Liu Sheng-Siang Yin Yixuan Pei Jinglong Yang Qifeng Chen Nan Duan Jianguo Zhang 122 3 0 16 Feb 2024
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives Sheng Luo Wei Chen Wanxin Tian Rui Liu Luanxuan Hou ... Ling Shao Yi Yang Bojun Gao Qun Li Guobin Wu 137 17 0 05 Feb 2024
Prospective Role of Foundation Models in Advancing Autonomous Vehicles Jianhua Wu B. Gao Jincheng Gao Jianhao Yu Hongqing Chu ... Xun Gong Yi Chang H. E. Tseng Hong Chen Jie Chen 97 5 0 08 Dec 2023
LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs Yunsheng Ma Can Cui Xu Cao Wenqian Ye Peiran Liu ... Rohit Gupta Kyungtae Han Aniket Bera James M. Rehg Ziran Wang 69 45 0 07 Dec 2023
Empowering Autonomous Driving with Large Language Models: A Safety Perspective Yixuan Wang Ruochen Jiao Sinong Simon Zhan Chengtian Lang Chao Huang Zhaoran Wang Zhuoran Yang Qi Zhu 116 31 0 28 Nov 2023
Applications of Large Scale Foundation Models for Autonomous Driving Yu Huang Yue Chen Zhu Li ELM AI4CE LRM ALM LM&Ro 185 16 0 20 Nov 2023
Human-Centric Autonomous Systems With LLMs for User Command Reasoning Yi Yang Qingwen Zhang Ci Li Daniel Simoes Marta Nazre Batool John Folkesson LRM 114 30 0 14 Nov 2023
What Makes a Fantastic Passenger-Car Driver in Urban Contexts? Yueteng Yu Zhijie Yi Xinyu Yang Mengdi Chu Junrong Lu ... Jialin Song Xingrui Gu Jirui Yuan Guyue Zhou Jiangtao Gong 76 0 0 07 Nov 2023
Vision Language Models in Autonomous Driving: A Survey and Outlook Xingcheng Zhou Mingyu Liu Ekim Yurtsever B. L. Žagar Walter Zimmer Hu Cao Alois C. Knoll VLM 111 61 0 22 Oct 2023
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Hao Sha Yao Mu Yuxuan Jiang Li Chen Chenfeng Xu Ping Luo Shengbo Eben Li Masayoshi Tomizuka Wei Zhan Mingyu Ding 265 179 0 04 Oct 2023
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving Long Chen Oleg Sinavski Jan Hünermann Alice Karnsund Andrew James Willmott Danny Birch Daniel Maund Jamie Shotton MLLM 127 211 0 03 Oct 2023