Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models

16 May 2025

Papers citing "Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models"

2 / 2 papers shown

Title
SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding Zhenyu Yang Yihan Hu Zemin Du Dizhan Xue Shengsheng Qian Jiahong Wu Fan Yang W. Dong Changsheng Xu 106 9 0 15 Feb 2025
Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge Haomiao Xiong Zhiyong Yang Jiazuo Yu Yunzhi Zhuge Lu Zhang Jiawen Zhu Huchuan Lu 82 11 0 23 Jan 2025