Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos

Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos

15 March 2023

Yuxin Peng

Papers citing "Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos"

14 / 14 papers shown

Title
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Zijia Lu A S M Iftekhar Gaurav Mittal Tianjian Meng Xiawei Wang Cheng Zhao Rohith Kukkala Ehsan Elhamifar Mei Chen 41 0 0 22 May 2025
SEAL: Semantic Attention Learning for Long Video Representation Lan Wang Yujia Chen Wen-Sheng Chu Vishnu Boddeti Du Tran VLM 146 0 0 02 Dec 2024
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 350 1,056 0 13 Oct 2021
HANet: Hierarchical Alignment Networks for Video-Text Retrieval Peng Wu Xiangteng He Mingqian Tang Yiliang Lv Jing Liu 64 53 0 26 Jul 2021
Location-aware Graph Convolutional Networks for Video Question Answering Deng Huang Peihao Chen Runhao Zeng Qing Du Mingkui Tan Chuang Gan GNN BDL 76 174 0 07 Aug 2020
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos Xiaoye Qu Peng Tang Zhikang Zhou Yu Cheng Jianfeng Dong Pan Zhou 60 92 0 06 Aug 2020
Span-based Localizing Network for Natural Language Video Localization Hao Zhang Aixin Sun Wei Jing Qiufeng Wang 68 313 0 29 Apr 2020
Dense Regression Network for Video Grounding Runhao Zeng Haoming Xu Wenbing Huang Peihao Chen Mingkui Tan Chuang Gan 57 283 0 07 Apr 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 176 279 0 24 Jan 2020
Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang Houwen Peng Jianlong Fu Jiebo Luo 42 465 0 08 Dec 2019
Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos Yitian Yuan Lin Ma Jingwen Wang Wei Liu Wenwu Zhu 61 243 0 31 Oct 2019
TALL: Temporal Activity Localization via Language Query J. Gao Chen Sun Zhenheng Yang Ram Nevatia 108 813 0 05 May 2017
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 254 10,412 0 21 Jul 2016
Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding Gunnar Sigurdsson Gül Varol Xinyu Wang Ali Farhadi Ivan Laptev Abhinav Gupta VGen 77 1,238 0 06 Apr 2016