TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

14 April 2024

Papers citing "TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning"

8 / 8 papers shown

Title
Addressing Out-of-Label Hazard Detection in Dashcam Videos: Insights from the COOOL Challenge Anh-Kiet Duong Petra Gomez-Krämer 33 2 0 27 Jan 2025
When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis Ruixuan Zhang Beichen Wang Juexiao Zhang Zilin Bian Chen Feng K. Ozbay 39 2 0 17 Jan 2025
The 8th AI City Challenge Shuo Wang D. Anastasiu Zhenghang Tang Ming-Ching Chang Yue Yao ... Xunlei Wu S. Pusegaonkar Yizhou Wang Sujit Biswas Rama Chellappa 35 31 0 15 Apr 2024
OmniVid: A Generative Framework for Universal Video Understanding Junke Wang Dongdong Chen Chong Luo Bo He Lu Yuan Zuxuan Wu Yu-Gang Jiang VLM VGen 69 14 0 26 Mar 2024
VTimeLLM: Empower LLM to Grasp Video Moments Bin Huang Xin Wang Hong Chen Zihan Song Wenwu Zhu MLLM 87 113 0 30 Nov 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,125 0 28 Jan 2022
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 259 558 0 28 Sep 2021
Simple Online and Realtime Tracking with a Deep Association Metric N. Wojke Alex Bewley Dietrich Paulus VOT 228 3,463 0 21 Mar 2017