TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

24 January 2020

Papers citing "TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval"

46 / 46 papers shown

Title
Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval Junlong Ren Gangjian Zhang Y. Hu Jian Shu H. Wang 29 0 0 28 Apr 2025
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion Saron Samuel Dan DeGenaro Jimena Guallar-Blasco Kate Sanders Oluwaseun Eisape ... David Etter Efsun Kayi Matthew Wiesner Kenton W. Murray Reno Kriz 85 0 0 26 Mar 2025
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning Y. Liu Kevin Qinghong Lin C. Chen Mike Zheng Shou LM&Ro LRM 81 0 0 17 Mar 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 96 4 0 24 Feb 2025
LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin Fan Zhou 42 1 0 18 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
Detection, Retrieval, and Explanation Unified: A Violence Detection System Based on Knowledge Graphs and GAT Wen-Dong Jiang Chih-Yung Chang Diptendu Sinha Roy 38 0 0 07 Jan 2025
Do Language Models Understand Time? Xi Ding Lei Wang 178 0 0 18 Dec 2024
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval Reno Kriz Kate Sanders David Etter Kenton W. Murray Cameron Carpenter ... Alexander Martin Ronald Colaianni Nolan King Eugene Yang Benjamin Van Durme VGen 33 2 0 15 Oct 2024
Language-based Audio Moment Retrieval Hokuto Munakata Taichi Nishimura Shota Nakada Tatsuya Komatsu 28 1 0 24 Sep 2024
Context-Enhanced Video Moment Retrieval with Large Language Models Weijia Liu Bo Miao Jiuxin Cao Xueling Zhu Bo Liu Mehwish Nasim Ajmal Saeed Mian 29 2 0 21 May 2024
$R^2$ -Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding Ye Liu Jixuan He Wanhua Li Junsik Kim D. Wei Hanspeter Pfister Chang Wen Chen 36 13 0 31 Mar 2024
Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding Jingjing Hu Dan Guo Kun Li Zhan Si Xun Yang Xiaojun Chang Meng Wang 59 3 0 21 Mar 2024
MM-VID: Advancing Video Understanding with GPT-4V(ision) Kevin Qinghong Lin Faisal Ahmed Linjie Li Chung-Ching Lin E. Azarnasab ... Lin Liang Zicheng Liu Yumao Lu Ce Liu Lijuan Wang MLLM 28 63 0 30 Oct 2023
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 24 36 0 10 Oct 2023
SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval Sunjae Yoon Gwanhyeong Koo Dahyun Kim Changdong Yoo 21 12 0 08 Oct 2023
MultiVENT: Multilingual Videos of Events with Aligned Natural Text Kate Sanders David Etter Reno Kriz Benjamin Van Durme VGen 34 7 0 06 Jul 2023
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Mohit Bansal 42 129 0 11 May 2023
Hierarchical Video-Moment Retrieval and Step-Captioning Abhaysinh Zala Jaemin Cho Satwik Kottur Xilun Chen Barlas Ouguz Yasher Mehdad Mohit Bansal 3DV 20 51 0 29 Mar 2023
Interactive Video Corpus Moment Retrieval using Reinforcement Learning Zhixin Ma Chong-Wah Ngo 31 3 0 19 Feb 2023
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention Zineng Tang Jaemin Cho Jie Lei Mohit Bansal VLM 24 9 0 21 Nov 2022
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval Minjoon Jung Seongho Choi Joo-Kyung Kim Jin-Hwa Kim Byoung-Tak Zhang 31 7 0 23 Oct 2022
Selective Query-guided Debiasing for Video Corpus Moment Retrieval Sunjae Yoon Jiajing Hong Eunseop Yoon Dahyun Kim Junyeong Kim Hee Suk Yoon Changdong Yoo 33 21 0 17 Oct 2022
Hierarchical3D Adapters for Long Video-to-text Summarization Pinelopi Papalampidi Mirella Lapata VGen 27 12 0 10 Oct 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 70 7 0 14 Sep 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 19 63 0 04 Sep 2022
Hierarchical Local-Global Transformer for Temporal Sentence Grounding Xiang Fang Daizong Liu Pan Zhou Zichuan Xu Rui Li 12 28 0 31 Aug 2022
Partially Relevant Video Retrieval Jianfeng Dong Xianke Chen Minsong Zhang Xun Yang Shujie Chen Xirong Li Xun Wang 14 39 0 26 Aug 2022
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos Juncheng Billy Li Junlin Xie Linchao Zhu Long Qian Siliang Tang ... Haochen Shi Shengyu Zhang Longhui Wei Qi Tian Yueting Zhuang 32 12 0 03 Aug 2022
Meta Spatio-Temporal Debiasing for Video Scene Graph Generation Li Xu Haoxuan Qu Jason Kuen Jiuxiang Gu Jun Liu CML 22 27 0 23 Jul 2022
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling Linjie Li Zhe Gan Kevin Qinghong Lin Chung-Ching Lin Zicheng Liu Ce Liu Lijuan Wang MLLM VLM 20 81 0 14 Jun 2022
Video Moment Retrieval from Text Queries via Single Frame Annotation Ran Cui Tianwen Qian Pai Peng E. Daskalaki Jingjing Chen Xiao-Wei Guo Huyang Sun Yu-Gang Jiang 15 35 0 20 Apr 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 25 19 0 23 Mar 2022
VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks Yi-Lin Sung Jaemin Cho Mohit Bansal VLM VPVLM 29 342 0 13 Dec 2021
A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer Weijia Wu Yuanqiang Cai Debing Zhang Sibo Wang Zhuang Li Jiahong Li Yejun Tang Hong Zhou 30 29 0 09 Dec 2021
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin W. Wang Lijuan Wang Zicheng Liu VLM 39 216 0 24 Nov 2021
Audio Interval Retrieval using Convolutional Neural Networks I. Kuzminykh Dan Shevchuk S. Shiaeles Bogdan Ghita 12 7 0 21 Sep 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Eric Wang Zhi Wang Wenwu Zhu 27 47 0 16 Sep 2021
Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang Yueting Zhuang 17 28 0 26 Jul 2021
Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation Jiabo Huang Yang Liu S. Gong Hailin Jin 26 61 0 23 Jul 2021
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei Tamara L. Berg Mohit Bansal ViT 21 62 0 20 Jul 2021
Parallel Attention Network with Sequence Matching for Video Grounding Hao Zhang Aixin Sun Wei Jing Liangli Zhen Joey Tianyi Zhou Rick Siow Mong Goh 16 40 0 18 May 2021
On Semantic Similarity in Video Retrieval Michael Wray Hazel Doughty Dima Damen 21 66 0 18 Mar 2021
VLG-Net: Video-Language Graph Matching Network for Video Grounding Mattia Soldan Mengmeng Xu Sisi Qu Jesper N. Tegnér Bernard Ghanem 33 69 0 19 Nov 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 41 492 0 01 May 2020
BSN: Boundary Sensitive Network for Temporal Action Proposal Generation Tianwei Lin Xu Zhao Haisheng Su Chongjing Wang Ming Yang 139 700 0 08 Jun 2018