Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval

5 June 2022

Mike Zheng Shou

Heng Ji

Papers citing "Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval"

11 / 11 papers shown

Title
PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction Hammad A. Ayyubi Xuande Feng Junzhang Liu Xudong Lin Zhecan Wang Shih-Fu Chang 45 0 0 24 Jan 2025
ENTER: Event Based Interpretable Reasoning for VideoQA Hammad A. Ayyubi Junzhang Liu Ali Asgarov Zaber Ibn Abdul Hakim Najibul Haque Sarker ... Md. Atabuzzaman Xudong Lin Naveen Reddy Dyava Shih-Fu Chang Chris Thomas NAI 147 2 0 24 Jan 2025
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering Juhong Min Shyamal Buch Arsha Nagrani Minsu Cho Cordelia Schmid LRM 44 20 0 09 Apr 2024
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding Ahmad A Mahmood Ashmal Vayani Muzammal Naseer Salman Khan Fahad Shahbaz Khan LRM 56 7 0 21 Mar 2024
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Joey Tianyi Zhou 54 129 0 11 May 2023
In Defense of Structural Symbolic Representation for Video Event-Relation Prediction Andrew Lu Xudong Lin Yulei Niu Shih-Fu Chang 21 2 0 06 Jan 2023
Learning to Decompose Visual Features with Latent Textual Prompts Feng Wang Manling Li Xudong Lin Hairong Lv A. Schwing Heng Ji VLM 19 23 0 09 Oct 2022
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 259 558 0 28 Sep 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 202 405 0 13 Jul 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 323 780 0 18 Apr 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019