Text-Video Retrieval with Global-Local Semantic Consistent Learning

Text-Video Retrieval with Global-Local Semantic Consistent Learning

21 May 2024

Haonan Zhang

Lianli Gao

Jingkuan Song

Papers citing "Text-Video Retrieval with Global-Local Semantic Consistent Learning"

7 / 7 papers shown

Title
TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval Xiaolun Jing Genke Yang Jian Chu 26 0 0 07 Apr 2025
Accelerating Vision-Language Pretraining with Free Language Modeling Teng Wang Yixiao Ge Feng Zheng Ran Cheng Ying Shan Xiaohu Qie Ping Luo VLM MLLM 89 9 0 24 Mar 2023
Regularized Vector Quantization for Tokenized Image Synthesis Jiahui Zhang Fangneng Zhan Christian Theobalt Shijian Lu DiffM MQ 33 30 0 11 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 270 4,229 0 30 Jan 2023
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention Ziyu Guo Renrui Zhang Longtian Qiu Xianzheng Ma Xupeng Miao Xuming He Bin Cui VLM AAML 57 109 0 28 Sep 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 314 780 0 18 Apr 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 412 595 0 21 Jul 2020