Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding

10 September 2021

Gangshan Wu

Papers citing "Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding"

50 / 72 papers shown

Title
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos Chen-Da Liu-Zhang Lin Sui Shuming Liu Fangzhou Mu Ziyi Wang Bernard Ghanem 62 1 0 09 Mar 2025
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling Xinhao Li Yi Wang Jiashuo Yu Xiangyu Zeng Yuhan Zhu ... Yinan He Chenting Wang Yu Qiao Yali Wang L. Wang VLM 101 32 0 31 Dec 2024
Video LLMs for Temporal Reasoning in Long Videos Fawad Javed Fateh Umer Ahmed Hamza Khan M. Zia Quoc-Huy Tran VLM 109 1 0 04 Dec 2024
On the Consistency of Video Large Language Models in Temporal Comprehension Minjoon Jung Junbin Xiao Byoung-Tak Zhang Angela Yao 112 2 0 20 Nov 2024
Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding Jingjing Hu Dan Guo Kun Li Zhan Si Xun Yang Xiaojun Chang Meng Wang 77 3 0 21 Mar 2024
Support-Set Based Cross-Supervision for Video Grounding Xinpeng Ding N. Wang Shiwei Zhang De Cheng Xiaomeng Li Ziyuan Huang Mingqian Tang Xinbo Gao 47 42 0 24 Aug 2021
Interventional Video Grounding with Dual Contrastive Learning Guoshun Nan Rui Qiao Yao Xiao Jun Liu Sicong Leng H. Zhang Wei Lu 56 145 0 21 Jun 2021
Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal Video Grounding Chaolei Tan Zihang Lin Jianfang Hu Xiang Li Weishi Zheng 98 9 0 20 Jun 2021
2rd Place Solutions in the HC-STVG track of Person in Context Challenge 2021 Yi Yu XinyingWang Wei Hu Xun Luo Cheng Li 38 8 0 14 Jun 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 135 872 0 26 Apr 2021
Context-aware Biaffine Localizing Network for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou Yu Cheng Wei Wei Zichuan Xu Yulai Xie 27 145 0 22 Mar 2021
TDN: Temporal Difference Networks for Efficient Action Recognition Limin Wang Zhan Tong Bin Ji Gangshan Wu 52 395 0 18 Dec 2020
Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang Houwen Peng Jianlong Fu Yijuan Lu Jiebo Luo 34 51 0 04 Dec 2020
Human-centric Spatio-Temporal Video Grounding With Visual Transformers Zongheng Tang Yue Liao Si Liu Guanbin Li Xiaojie Jin Hongxu Jiang Qian Yu Dong Xu 26 94 0 10 Nov 2020
A Simple Yet Effective Method for Video Temporal Grounding with Cross-Modality Attention Binjie Zhang Yu Li Chun Yuan D. Xu Pin Jiang Ying Shan 13 5 0 23 Sep 2020
Uncovering Hidden Challenges in Query-Based Video Moment Retrieval Mayu Otani Yuta Nakashima Esa Rahtu J. Heikkilä 90 76 0 01 Sep 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 35 101 0 28 Jul 2020
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 494 600 0 21 Jul 2020
Span-based Localizing Network for Natural Language Video Localization Hao Zhang Aixin Sun Wei Jing Qiufeng Wang 65 313 0 29 Apr 2020
Supervised Contrastive Learning Prannay Khosla Piotr Teterwak Chen Wang Aaron Sarna Yonglong Tian Phillip Isola Aaron Maschinot Ce Liu Dilip Krishnan SSL 100 4,476 0 23 Apr 2020
Local-Global Video-Text Interactions for Temporal Grounding Jonghwan Mun Minsu Cho Bohyung Han 43 267 0 16 Apr 2020
Dense Regression Network for Video Grounding Runhao Zeng Haoming Xu Wenbing Huang Peihao Chen Mingkui Tan Chuang Gan 49 283 0 07 Apr 2020
A Simple Framework for Contrastive Learning of Visual Representations Ting-Li Chen Simon Kornblith Mohammad Norouzi Geoffrey E. Hinton SSL 142 18,523 0 13 Feb 2020
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video Jie Wu Guanbin Li Si Liu Liang Lin OffRL 28 104 0 18 Jan 2020
Learning Spatiotemporal Features via Video and Text Pair Discrimination Tianhao Li Limin Wang VGen 23 56 0 16 Jan 2020
Actions as Moving Points Yixuan Li Zixu Wang Limin Wang Gangshan Wu 94 105 0 14 Jan 2020
End-to-End Learning of Visual Representations from Uncurated Instructional Videos Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic Andrew Zisserman VGen SSL 84 705 0 13 Dec 2019
Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang Houwen Peng Jianlong Fu Jiebo Luo 30 465 0 08 Dec 2019
G-TAD: Sub-Graph Localization for Temporal Action Detection Mengmeng Xu Chen Zhao D. Rojas Ali K. Thabet Guohao Li 83 436 0 26 Nov 2019
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 75 11,959 0 13 Nov 2019
Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos Yitian Yuan Lin Ma Jingwen Wang Wei Liu Wenwu Zhu 48 243 0 31 Oct 2019
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor Sanh Lysandre Debut Julien Chaumond Thomas Wolf 78 7,386 0 02 Oct 2019
Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction Jingwen Wang Lin Ma Wenhao Jiang 31 182 0 11 Sep 2019
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Joey Tianyi Zhou VLM MLLM 183 2,467 0 20 Aug 2019
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention Cristian Rodriguez-Opazo Edison Marrese-Taylor F. Saleh Hongdong Li Stephen Gould 42 147 0 20 Aug 2019
BMN: Boundary-Matching Network for Temporal Action Proposal Generation Tianwei Lin Xiao-Chang Liu Xin Li Errui Ding Shilei Wen 116 599 0 23 Jul 2019
Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video Zhenfang Chen Lin Ma Wenhan Luo Kwan-Yee K. Wong 54 101 0 06 Jun 2019
Video Classification with Channel-Separated Convolutional Networks Du Tran Heng Wang Lorenzo Torresani Matt Feiszli 3DV 35 583 0 04 Apr 2019
ExCL: Extractive Clip Localization Using Natural Language Descriptions Soham Ghosh Anuva Agarwal Zarana Parekh Alexander G. Hauptmann CLIP 30 152 0 04 Apr 2019
Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos Dongliang He Xiang Zhao Jizhou Huang Fu Li Xiao-Chang Liu Shilei Wen 33 152 0 21 Jan 2019
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 130 3,244 0 10 Dec 2018
MAN: Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment Da Zhang Xiyang Dai Xin Eric Wang Yuan-fang Wang L. Davis 31 303 0 30 Nov 2018
MAC: Mining Activity Concepts for Language-based Temporal Localization Runzhou Ge J. Gao Kan Chen Ram Nevatia 46 178 0 21 Nov 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 751 93,936 0 11 Oct 2018
Learning deep representations by mutual information estimation and maximization R. Devon Hjelm A. Fedorov Samuel Lavoie-Marchildon Karan Grewal Phil Bachman Adam Trischler Yoshua Bengio SSL DRL 208 2,649 0 20 Aug 2018
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 191 10,152 0 10 Jul 2018
BSN: Boundary Sensitive Network for Temporal Action Proposal Generation Tianwei Lin Xu Zhao Haisheng Su Chongjing Wang Ming Yang 180 700 0 08 Jun 2018
Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination Zhirong Wu Yuanjun Xiong Stella X. Yu Dahua Lin SSL 125 3,437 0 05 May 2018
To Find Where You Talk: Temporal Sentence Localization in Video with Attention Based Location Regression Yitian Yuan Tao Mei Wenwu Zhu 52 332 0 19 Apr 2018
Multilevel Language and Vision Integration for Text-to-Clip Retrieval Huijuan Xu Kun He Bryan A. Plummer Leonid Sigal Stan Sclaroff Kate Saenko CLIP 41 322 0 13 Apr 2018