Learning Temporal Sentence Grounding From Narrated EgoVideos

Learning Temporal Sentence Grounding From Narrated EgoVideos

26 October 2023

Dima Damen

ArXiv (abs)PDF HTML Github (4★)

Papers citing "Learning Temporal Sentence Grounding From Narrated EgoVideos"

19 / 19 papers shown

Title
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Guohao Li Wei Liu Mike Zheng Shou VLM EgoV 84 206 0 03 Jun 2022
Video Moment Retrieval from Text Queries via Single Frame Annotation Ran Cui Tianwen Qian Pai Peng E. Daskalaki Jingjing Chen Xiao-Wei Guo Huyang Sun Yu-Gang Jiang 83 36 0 20 Apr 2022
Omnivore: A Single Model for Many Visual Modalities Rohit Girdhar Mannat Singh Nikhil Ravi Laurens van der Maaten Armand Joulin Ishan Misra 271 237 0 20 Jan 2022
On Pursuit of Designing Multi-modal Transformer for Video Grounding Meng Cao Long Chen Mike Zheng Shou Can Zhang Yuexian Zou 70 81 0 13 Sep 2021
Interventional Video Grounding with Dual Contrastive Learning Guoshun Nan Rui Qiao Yao Xiao Jun Liu Sicong Leng H. Zhang Wei Lu 83 145 0 21 Jun 2021
A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric Yitian Yuan Xiaohan Lan Xin Wang Long Chen Zhi Wang Wenwu Zhu 64 54 0 22 Jan 2021
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos Xiaoye Qu Peng Tang Zhikang Zhou Yu Cheng Jianfeng Dong Pan Zhou 81 92 0 06 Aug 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 83 102 0 28 Jul 2020
Rescaling Egocentric Vision Dima Damen Hazel Doughty G. Farinella Antonino Furnari Evangelos Kazakos ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 112 466 0 23 Jun 2020
Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of Sentence in Video Zhenfang Chen Lin Ma Wenhan Luo Peng Tang Kwan-Yee K. Wong 44 68 0 25 Jan 2020
Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang Houwen Peng Jianlong Fu Jiebo Luo 75 470 0 08 Dec 2019
Weakly-Supervised Video Moment Retrieval via Semantic Completion Network Zhijie Lin Zhou Zhao Zhu Zhang Qi. Wang Huasheng Liu 78 150 0 19 Nov 2019
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention Cristian Rodriguez-Opazo Edison Marrese-Taylor F. Saleh Hongdong Li Stephen Gould 69 147 0 20 Aug 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 255 3,699 0 06 Aug 2019
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic VGen 122 1,208 0 07 Jun 2019
Action Recognition from Single Timestamp Supervision in Untrimmed Videos Davide Moltisanti Sanja Fidler Dima Damen 73 61 0 09 Apr 2019
Localizing Moments in Video with Natural Language Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell Bryan C. Russell 127 949 0 04 Aug 2017
TALL: Temporal Activity Localization via Language Query J. Gao Chen Sun Zhenheng Yang Ram Nevatia 127 824 0 05 May 2017
Dense-Captioning Events in Videos Ranjay Krishna Kenji Hata F. Ren Li Fei-Fei Juan Carlos Niebles 150 1,251 0 02 May 2017