Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval

21 November 2022

Papers citing "Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval"

16 / 16 papers shown

Title
Interpretable Embedding for Ad-hoc Video Search Jiaxin Wu Chong-Wah Ngo 127 30 0 19 Feb 2024
Bridging Video-text Retrieval with Multiple Choice Questions Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo BDL 88 109 0 13 Jan 2022
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss Xingyi Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen 65 154 0 09 Sep 2021
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman VGen 178 1,190 0 01 Apr 2021
A Straightforward Framework For Video Retrieval Using CLIP Jesús Andrés Portillo-Quintero J. C. Ortíz-Bayliss Hugo Terashima-Marín CLIP 369 117 0 24 Feb 2021
Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval Xun Yang Jianfeng Dong Yixin Cao Xun Wang Meng Wang Tat-Seng Chua 65 140 0 06 Jul 2020
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning Shizhe Chen Yida Zhao Qin Jin Qi Wu 109 314 0 01 Mar 2020
Use What You Have: Video Retrieval Using Representations From Collaborative Experts Yang Liu Samuel Albanie Arsha Nagrani Andrew Zisserman 89 389 0 31 Jul 2019
Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval Yale Song M. Soleymani 72 246 0 11 Jun 2019
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic VGen 124 1,208 0 07 Jun 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 108 556 0 06 Apr 2019
A Joint Sequence Fusion Model for Video Question Answering and Retrieval Youngjae Yu Jongseok Kim Gunhee Kim 105 345 0 07 Aug 2018
Exploring the Limits of Weakly Supervised Pretraining D. Mahajan Ross B. Girshick Vignesh Ramanathan Kaiming He Manohar Paluri Yixuan Li Ashwin R. Bharambe Laurens van der Maaten VLM 205 1,371 0 02 May 2018
Predicting Visual Features from Text for Image and Video Caption Retrieval Jianfeng Dong Xirong Li Cees G. M. Snoek 70 224 0 05 Sep 2017
TGIF: A New Dataset and Benchmark on Animated GIF Description Yuncheng Li Yale Song Liangliang Cao Joel R. Tetreault Larry Goldberg A. Jaimes Jiebo Luo 79 273 0 10 Apr 2016
Efficient Estimation of Word Representations in Vector Space Tomas Mikolov Kai Chen G. Corrado J. Dean 3DV 707 31,571 0 16 Jan 2013