Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language

8 December 2019

Papers citing "Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language"

50 / 85 papers shown

Title
GeoMM: On Geodesic Perspective for Multi-modal Learning Shibin Mei Hang Wang Bingbing Ni 22 0 0 16 May 2025
Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining Lu Dong H. Zhang Hongjie Zhang Yuanmin Huang Z. Ling Yu Qiao Limin Wang Yuping Wang AI4TS 43 0 0 10 May 2025
Object-Shot Enhanced Grounding Network for Egocentric Video Yisen Feng Haoyu Zhang Meng Liu Weili Guan Liqiang Nie 41 0 0 07 May 2025
Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval Junlong Ren Gangjian Zhang Yitao Hu Jian Shu Haoran Wang 29 0 0 28 Apr 2025
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning Yong Liu Kevin Qinghong Lin C. Chen Mike Zheng Shou LM&Ro LRM 123 0 0 17 Mar 2025
LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin Fan Zhou 42 1 0 18 Jan 2025
Multi-modal Fusion and Query Refinement Network for Video Moment Retrieval and Highlight Detection Yifang Xu Yunzhuo Sun Benxiang Zhai Zien Xie Youyao Jia S. Du 49 2 0 18 Jan 2025
On the Consistency of Video Large Language Models in Temporal Comprehension Minjoon Jung Junbin Xiao Byoung-Tak Zhang Angela Yao 87 2 0 20 Nov 2024
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding Xing Zhang Jiaxi Gu Haoyu Zhao Shicong Wang Hang Xu Renjing Pei Songcen Xu Zuxuan Wu Yu-Gang Jiang 46 0 0 11 Jun 2024
SketchQL Demonstration: Zero-shot Video Moment Querying with Sketches Renzhi Wu Pramod Chunduri Dristi J Shah Ashmitha Julius Aravind Ali Payani Xu Chu Joy Arulraj Kexin Rong 27 1 0 28 May 2024
Context-Enhanced Video Moment Retrieval with Large Language Models Weijia Liu Bo Miao Jiuxin Cao Xueling Zhu Bo Liu Mehwish Nasim Ajmal Mian 50 2 0 21 May 2024
Video sentence grounding with temporally global textual knowledge Cai Chen Runzhong Zhang Jianjun Gao Kejun Wu Kim-Hui Yap Yi Wang 32 0 0 21 Apr 2024
Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection Jin Yang Ping Wei Huan Li Ziyang Ren 51 8 0 14 Apr 2024
$R^2$ -Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding Ye Liu Jixuan He Wanhua Li Junsik Kim D. Wei Hanspeter Pfister Chang Wen Chen 46 13 0 31 Mar 2024
Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding Jingjing Hu Dan Guo Kun Li Zhan Si Xun Yang Xiaojun Chang Meng Wang 61 3 0 21 Mar 2024
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding Chaolei Tan Jian-Huang Lai Wei-Shi Zheng Jianfang Hu AI4TS 44 5 0 18 Mar 2024
Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval Love Panta Prashant Shrestha Brabeem Sapkota Amrita Bhattarai Suresh Manandhar Anand Kumar Sah 31 3 0 12 Dec 2023
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Tanveer Hannan Md. Mohaiminul Islam Thomas Seidl Gedas Bertasius 28 3 0 11 Dec 2023
EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model Guozhang Li Xinpeng Ding De-Chun Cheng Jie Li Nannan Wang Xinbo Gao 34 1 0 05 Dec 2023
SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval Sunjae Yoon Gwanhyeong Koo Dahyun Kim Changdong Yoo 26 12 0 08 Oct 2023
UnLoc: A Unified Framework for Video Localization Tasks Shengjia Yan Xuehan Xiong Arsha Nagrani Anurag Arnab Zhonghao Wang Weina Ge David A. Ross Cordelia Schmid 33 53 0 21 Aug 2023
Temporal Sentence Grounding in Streaming Videos Tian Gan Xiao Wang Yan Sun Jianlong Wu Qingpei Guo Liqiang Nie 46 2 0 14 Aug 2023
A Survey on Video Moment Localization Meng Liu Liqiang Nie Yunxiao Wang Meng Wang Yong Rui 34 28 0 13 Jun 2023
Generation-Guided Multi-Level Unified Network for Video Grounding Xingyi Cheng Xiangyu Wu Dong Shen Hezheng Lin Fan Yang 21 0 0 14 Mar 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 26 7 0 16 Feb 2023
Temporal Perceiving Video-Language Pre-training Fan Ma Xiaojie Jin Heng Wang Jingjia Huang Linchao Zhu Jiashi Feng Yi Yang VLM 32 15 0 18 Jan 2023
Hypotheses Tree Building for One-Shot Temporal Sentence Localization Daizong Liu Xiang Fang Pan Zhou Xing Di Weining Lu Yu Cheng 32 19 0 05 Jan 2023
NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory Santhosh Kumar Ramakrishnan Ziad Al-Halah Kristen Grauman 119 39 0 02 Jan 2023
Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence Grounding Jiahao Zhu Daizong Liu Pan Zhou Xing Di Yu Cheng ... Wenzheng Xu Zichuan Xu Yao Wan Lichao Sun Zeyu Xiong 27 18 0 02 Jan 2023
MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding Wei Ji Long Chen Yin-wei Wei Yiming Wu Tat-Seng Chua AI4TS 35 18 0 26 Dec 2022
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline Na Li 26 0 0 15 Oct 2022
Hierarchical Local-Global Transformer for Temporal Sentence Grounding Xiang Fang Daizong Liu Pan Zhou Zichuan Xu Rui Li 33 28 0 31 Aug 2022
Partially Relevant Video Retrieval Jianfeng Dong Xianke Chen Minsong Zhang Xun Yang Shujie Chen Xirong Li Xun Wang 19 39 0 26 Aug 2022
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos Juncheng Billy Li Junlin Xie Linchao Zhu Long Qian Siliang Tang ... Haochen Shi Shengyu Zhang Longhui Wei Qi Tian Yueting Zhuang 36 12 0 03 Aug 2022
Reducing the Vision and Language Bias for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Wei Hu 19 49 0 27 Jul 2022
EgoEnv: Human-centric environment representations from egocentric video Tushar Nagarajan Santhosh Kumar Ramakrishnan Ruta Desai James M. Hillis Kristen Grauman EgoV 38 19 0 22 Jul 2022
STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding Zihang Lin Chaolei Tan Jianfang Hu Zhi Jin Tiancai Ye Weihao Zheng 26 3 0 06 Jul 2022
Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Guohao Li Wei Liu Mike Zheng Shou EgoV 32 7 0 04 Jul 2022
ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022 Na Liu Xiaohan Wang Xiaobo Li Yi Yang Yueting Zhuang 26 18 0 01 Jul 2022
Video Activity Localisation with Uncertainties in Temporal Boundary Jiabo Huang Hailin Jin S. Gong Yang Liu 24 23 0 26 Jun 2022
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Guohao Li Wei Liu Mike Zheng Shou VLM EgoV 46 189 0 03 Jun 2022
Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos Shuo Yang Xinxiao Wu 30 15 0 12 May 2022
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog Cheng Chen Yudong Zhu Zhenshan Tan Qingrong Cheng Xin Jiang Qun Liu X. Gu 31 39 0 01 May 2022
Contrastive Language-Action Pre-training for Temporal Localization Mengmeng Xu Erhan Gundogdu ⋆⋆ Maksim Guohao Li M. Donoser Loris Bazzani 38 27 0 26 Apr 2022
Video Moment Retrieval from Text Queries via Single Frame Annotation Ran Cui Tianwen Qian Pai Peng E. Daskalaki Jingjing Chen Xiao-Wei Guo Huyang Sun Yu-Gang Jiang 17 35 0 20 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 30 94 0 30 Mar 2022
Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning Juncheng Li Junlin Xie Long Qian Linchao Zhu Siliang Tang Fei Wu Yi Yang Yueting Zhuang Qing Guo 39 73 0 24 Mar 2022
UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection Ye Liu Siyuan Li Yang Wu C. Chen Ying Shan Xiaohu Qie ViT 27 140 0 23 Mar 2022
RCL: Recurrent Continuous Localization for Temporal Action Detection Qiang Wang Yanhao Zhang Yun Zheng Pan Pan ObjD 32 38 0 14 Mar 2022
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach Xiaohan Lan Yitian Yuan Xin Wang Long Chen Zhi Wang Lin Ma Wenwu Zhu CML 27 15 0 10 Mar 2022