SimVTP: Simple Video Text Pre-training with Masked Autoencoders

SimVTP: Simple Video Text Pre-training with Masked Autoencoders

7 December 2022

Yue Ma

Papers citing "SimVTP: Simple Video Text Pre-training with Masked Autoencoders"

11 / 11 papers shown

Title
LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin Fan Zhou 42 1 0 18 Jan 2025
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames Pinelopi Papalampidi Skanda Koppula Shreya Pathak Justin T Chiu Joseph Heyward Viorica Patraucean Jiajun Shen Antoine Miech Andrew Zisserman Aida Nematzdeh VLM 60 24 0 31 Dec 2024
M-BEV: Masked BEV Perception for Robust Autonomous Driving Siran Chen Yue Ma Yu Qiao Yali Wang 33 8 0 19 Dec 2023
LMD: Faster Image Reconstruction with Latent Masking Diffusion Zhiyuan Ma Zhihuan Yu Jianjun Li Bowen Zhou DiffM 24 8 0 13 Dec 2023
Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects Chunming He Kai Li Yachao Zhang Yulun Zhang Z. Guo Xiu Li Martin Danelljan F. I. F. Richard Yu AAML 35 44 0 06 Aug 2023
SemanticAC: Semantics-Assisted Framework for Audio Classification Yicheng Xiao Yue Ma Shuyan Li Hantao Zhou Ran Liao Xiu Li 13 8 0 12 Feb 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,443 0 11 Nov 2021
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 259 558 0 28 Sep 2021
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 164 170 0 20 Apr 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 317 780 0 18 Apr 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020