TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval

16 April 2021

Yang Liu

Papers citing "TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval"

34 / 34 papers shown

Title
Rethinking Knowledge in Distillation: An In-context Sample Retrieval Perspective Jinjing Zhu Songze Li Lin Wang 47 0 0 13 Jan 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin Yiming Li Li Yuan Shuicheng Yan Jie Chen 54 1 0 31 Dec 2024
Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence Wenbo Huang Jinghui Zhang Ge Li Lei Zhang Shuoyuan Wang Fang Dong Jiahui Jin Takahiro Ogawa Miki Haseyama Mamba 93 1 0 10 Dec 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 46 5 0 31 Jul 2024
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou ViT 48 28 0 29 Oct 2023
VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning Yanan Wang Donghuo Zeng Shinya Wada Satoshi Kurihara 32 6 0 27 Sep 2023
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment Peng Jin Hao Li Ze-Long Cheng Jinfa Huang Zhennan Wang Li-ming Yuan Chang-rui Liu Jie Chen 38 31 0 20 May 2023
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning Peng Jin Jinfa Huang Pengfei Xiong Shangxuan Tian Chang-rui Liu Xiang Ji Li-ming Yuan Jie Chen 45 49 0 25 Mar 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 28 54 0 17 Mar 2023
Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval Yizhen Chen Jie Wang Lijian Lin Zhongang Qi Jin Ma Ying Shan VLM 30 18 0 30 Jan 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 26 45 0 16 Jan 2023
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jing Chen VLM 44 64 0 21 Nov 2022
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning Yuchong Sun Hongwei Xue Ruihua Song Bei Liu Huan Yang Jianlong Fu AI4TS VLM 20 68 0 12 Oct 2022
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval Andrew Rouditchenko Yung-Sung Chuang Nina Shvetsova Samuel Thomas Rogerio Feris Brian Kingsbury Leonid Karlinsky David Harwath Hilde Kuehne James R. Glass VLM 34 4 0 07 Oct 2022
Partially Relevant Video Retrieval Jianfeng Dong Xianke Chen Minsong Zhang Xun Yang Shujie Chen Xirong Li Xun Wang 17 39 0 26 Aug 2022
M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval Shuo Liu Weize Quan Mingyuan Zhou Sihong Chen Jian Kang Zhenlan Zhao Chen Chen Dong-Ming Yan 28 0 0 16 Aug 2022
A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval Alex Falcon G. Serra Oswald Lanz VGen 42 25 0 03 Aug 2022
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin 39 114 0 16 Jul 2022
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji CLIP VLM 34 269 0 15 Jul 2022
A CLIP-Hitchhiker's Guide to Long Video Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman CLIP 129 62 0 17 May 2022
Learning to Retrieve Videos by Asking Questions Avinash Madasu Junier Oliva Gedas Bertasius VGen 32 16 0 11 May 2022
Relevance-based Margin for Contrastively-trained Video Retrieval Models Alex Falcon Swathikiran Sudhakaran G. Serra Sergio Escalera Oswald Lanz 40 7 0 27 Apr 2022
Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu VLM 20 18 0 07 Apr 2022
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound Yan-Bo Lin Jie Lei Joey Tianyi Zhou Gedas Bertasius 46 39 0 06 Apr 2022
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval S. Gorti Noël Vouitsis Junwei Ma Keyvan Golestan M. Volkovs Animesh Garg Guangwei Yu 36 148 0 28 Mar 2022
Learning video retrieval models with relevance-aware online mining Alex Falcon G. Serra Oswald Lanz AI4TS 24 7 0 16 Mar 2022
Disentangled Representation Learning for Text-Video Retrieval Qiang Wang Yanhao Zhang Yun Zheng Pan Pan Xiansheng Hua 45 76 0 14 Mar 2022
Sign Language Video Retrieval with Free-Form Textual Queries A. Duarte Samuel Albanie Xavier Giró-i-Nieto Gül Varol SLR 50 29 0 07 Jan 2022
Cross Modal Retrieval with Querybank Normalisation Simion-Vlad Bogolin Ioana Croitoru Hailin Jin Yang Liu Samuel Albanie 27 84 0 23 Dec 2021
Align and Prompt: Video-and-Language Pre-training with Entity Prompts Dongxu Li Junnan Li Hongdong Li Juan Carlos Niebles Guosheng Lin 28 191 0 17 Dec 2021
Object-aware Video-language Pre-training for Retrieval Alex Jinpeng Wang Yixiao Ge Guanyu Cai Rui Yan Xudong Lin Ying Shan Xiaohu Qie Mike Zheng Shou ViT VLM 17 79 0 01 Dec 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,225 0 16 Nov 2016
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 281 31,267 0 16 Jan 2013