RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

29 May 2024

Xiaodan Liang

Papers citing "RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter"

12 / 12 papers shown

Title
Fine-Tuning Video-Text Contrastive Model for Primate Behavior Retrieval from Unlabeled Raw Videos Giulio Cesare Mastrocinque Santo Patrícia Izar Irene Delval Victor de Napole Gregolin Nina S. T. Hirata VGen 40 0 0 08 May 2025
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion Saron Samuel Dan DeGenaro Jimena Guallar-Blasco Kate Sanders Oluwaseun Eisape ... David Etter Efsun Kayi Matthew Wiesner Kenton W. Murray Reno Kriz 85 0 0 26 Mar 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 96 4 0 24 Feb 2025
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval Reno Kriz Kate Sanders David Etter Kenton W. Murray Cameron Carpenter ... Alexander Martin Ronald Colaianni Nolan King Eugene Yang Benjamin Van Durme VGen 38 2 0 15 Oct 2024
TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval Leqi Shen Tianxiang Hao Tao He Sicheng Zhao Pengzhang Liu Yongjun Bao Guiguang Ding Guiguang Ding 132 7 0 02 Sep 2024
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning Huanjin Yao Wenhao Wu Zhiheng Li VLM 89 9 0 27 Nov 2023
Unified Coarse-to-Fine Alignment for Video-Text Retrieval Ziyang Wang Yi-Lin Sung Feng Cheng Gedas Bertasius Mohit Bansal 98 44 0 18 Sep 2023
Improving Video Retrieval by Adaptive Margin Feng He Qi Wang Zhifan Feng Wenbin Jiang Yajuan Lü Yong Zhu Xiao Tan 88 20 0 09 Mar 2023
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 164 170 0 20 Apr 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,848 0 18 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,700 0 11 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020