Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

6 January 2025

Papers citing "Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction"

5 / 5 papers shown

Title
HoliTom: Holistic Token Merging for Fast Video Large Language Models Kele Shao Keda Tao Can Qin Haoxuan You Yang Sui Huan Wang VLM 46 0 0 27 May 2025
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant Haibo Wang Bo Feng Zhengfeng Lai Mingze Xu Shiyu Li Weifeng Ge Afshin Dehghan Meng Cao Ping Huang OffRL 93 0 0 08 May 2025
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video Shuhang Xun Sicheng Tao Jiajun Li Yibo Shi Zhixin Lin ... Shikang Wang Yang Liu Hao Zhang Ying Ma Xuming Hu VLM LRM 66 1 0 04 May 2025
TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos Linli Yao You Li Y. X. Wei Lei Li Shuhuai Ren ... Sida Li Dianbo Sui Qi Liu Yanzhe Zhang Xu Sun 76 1 0 24 Apr 2025
ViSpeak: Visual Instruction Feedback in Streaming Videos Shenghao Fu Q. Yang Yuan-Ming Li Yi-Xing Peng Kun-Yu Lin Xihan Wei Jian-Fang Hu Xiaohua Xie Wei-Shi Zheng VLM 107 1 0 17 Mar 2025