Papers citing 'A Survey on Video Temporal Grounding with Multimodal Large Language Model'

Title
When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions Zhuo Cao Heming Du Bingqing Zhang Xin Yu Xue Li Sen Wang 88 0 0 20 Oct 2025
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Mingqian Feng ... Zeliang Zhang Daiki Shimada Han Liu Jiebo Luo Chenliang Xu MLLM OffRL VLM LRM 462 7 0 06 Oct 2025
Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs Sanghwan Kim Rui Xiao Stephan Alaniz Yongqin Xian Zeynep Akata 48 0 0 01 Oct 2025
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning Ye Liu Zongyang Ma Junfu Pu Zhongang Qi Yang Wu Mingyu Ding Chang Wen Chen MLLM ObjD LRM 199 0 0 22 Sep 2025
Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 723 25 0 28 Dec 2024