Frame-wise Cross-modal Matching for Video Moment Retrieval

v1v2 (latest)

Frame-wise Cross-modal Matching for Video Moment Retrieval

22 September 2020

Zan Gao

ArXiv (abs)PDF HTML

Papers citing "Frame-wise Cross-modal Matching for Video Moment Retrieval"

8 / 8 papers shown

Title
LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization Zirui Shang Xinxiao Wu Shuo Yang 46 0 0 30 May 2025
EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model Guozhang Li Xinpeng Ding De Cheng Jie Li Nannan Wang Xinbo Gao 102 1 0 05 Dec 2023
Visual Answer Localization with Cross-modal Mutual Knowledge Transfer Yixuan Weng Bin Li 112 6 0 26 Oct 2022
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval Xiang Fang Daizong Liu Pan Zhou Yuchong Hu 205 43 0 23 Sep 2022
Hierarchical Local-Global Transformer for Temporal Sentence Grounding Xiang Fang Daizong Liu Pan Zhou Zichuan Xu Rui Li 116 30 0 31 Aug 2022
Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video Bin Li Yixuan Weng Bin Sun Shutao Li 161 33 0 13 Mar 2022
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding Daizong Liu Xiang Fang Wei Hu Pan Zhou 98 37 0 06 Mar 2022
Self-supervised Learning for Semi-supervised Temporal Language Grounding Fan Luo Shaoxiang Chen Jingjing Chen Zuxuan Wu Yu-Gang Jiang VLM 127 11 0 23 Sep 2021