OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for
General Video Recognition

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

30 November 2023

Tom Tongjia Chen

Papers citing "OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition"

9 / 9 papers shown

Title
Efficient Transfer Learning for Video-language Foundation Models Haoxing Chen Zizheng Huang Y. Hong Yanshuo Wang Zhongcai Lyu Zhuoer Xu Jun Lan Zhangxuan Gu VLM 54 0 0 18 Nov 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 41 7 0 05 Jul 2024
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge Wei Lin Leonid Karlinsky Nina Shvetsova Horst Possegger Mateusz Koziñski Rameswar Panda Rogerio Feris Hilde Kuehne Horst Bischof VLM 102 38 0 15 Mar 2023
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang 98 48 0 31 Dec 2022
What does a platypus look like? Generating customized prompts for zero-shot image classification Sarah M Pratt Ian Covert Rosanne Liu Ali Farhadi VLM 131 212 0 07 Sep 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 103 93 0 04 Jul 2022
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 152 362 0 17 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 304 3,708 0 11 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,982 0 09 Feb 2021