BEVT: BERT Pretraining of Video Transformers

2 December 2021

Zuxuan Wu

Lu Yuan

Papers citing "BEVT: BERT Pretraining of Video Transformers"

50 / 147 papers shown

Title
Reinforcement Learning meets Masked Video Modeling : Trajectory-Guided Adaptive Token Selection Ayush Rai Kyle Min Tarun Krishna Feiyan Hu A. Smeaton Noel E. O'Connor VGen 24 0 0 13 May 2025
Advancing Video Anomaly Detection: A Bi-Directional Hybrid Framework for Enhanced Single- and Multi-Task Approaches Guodong Shen Yuqi Ouyang Junru Lu Yixuan Yang Victor Sanchez 33 1 0 20 Apr 2025
Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos Zhi Zuo Chenyi Zhuang Zhiqiang Shen Pan Gao Jie Qin 3DPC 32 0 0 07 Apr 2025
SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning Fida Mohammad Thoker Letian Jiang Chen Zhao Bernard Ghanem 57 0 0 01 Apr 2025
CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition Jongseo Lee Joohyun Chang Dongho Lee Jinwoo Choi 51 0 0 30 Mar 2025
Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations Tharun Anand Siva Sankar Pravin Nair AAML 45 0 0 28 Mar 2025
Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos Jiaheng Zhou Yanfeng Zhou Wei Fang Yuxing Tang Le Lu Ge Yang Mamba 199 0 0 26 Mar 2025
Structured-Noise Masked Modeling for Video, Audio and Beyond Aritra Bhowmik Fida Mohammad Thoker Carlos Hinojosa Bernard Ghanem Cees G. M. Snoek VGen 59 0 0 20 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 53 0 0 17 Mar 2025
GFG -- Gender-Fair Generation: A CALAMITA Challenge Simona Frenda Andrea Piergentili Beatrice Savoldi Marco Madeddu Martina Rosola Silvia Casola Chiara Ferrando V. Patti Matteo Negri L. Bentivogli 37 2 0 31 Dec 2024
VidTwin: Video VAE with Decoupled Structure and Dynamics Yuchi Wang Junliang Guo Xinyi Xie Tianyu He Xu Sun Jiang Bian DRL VGen 77 3 0 23 Dec 2024
Sensitive Image Classification by Vision Transformers Hanxian He Campbell Wilson Thanh Thi Nguyen Janis Dalins ViT 76 0 0 21 Dec 2024
A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning Luis Vilaca Yi Yu Paula Vinan 75 0 0 24 Nov 2024
Extending Video Masked Autoencoders to 128 frames N. B. Gundavarapu Luke Friedman Raghav Goyal Chaitra Hegde Eirikur Agustsson ... Mikhail Sirotenko Ming Yang Tobias Weyand Boqing Gong Leonid Sigal 75 1 0 20 Nov 2024
KDC-MAE: Knowledge Distilled Contrastive Mask Auto-Encoder Maheswar Bora Saurabh Atreya Aritra Mukherjee Abhijit Das 87 0 0 19 Nov 2024
Exploring Efficient Foundational Multi-modal Models for Video Summarization Karan Samel Apoorva Beedu Nitish Sontakke Irfan Essa 30 1 0 09 Oct 2024
Data Collection-free Masked Video Modeling Yuchi Ishikawa Masayoshi Kondo Yoshimitsu Aoki ViT 19 1 0 10 Sep 2024
CathAction: A Benchmark for Endovascular Intervention Understanding Baoru Huang Tuan Vo Chayun Kongtongvattana G. Dagnino Dennis Kundrat ... Francisco Vasconcelos Danail Stoyanov Daniel Elson Ferdinando Rodriguez y Baena Anh Nguyen 38 2 0 23 Aug 2024
Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning Xinrong Hu Dewen Zeng Yawen Wu Xueyang Li Yiyu Shi ViT MedIm 39 0 0 12 Aug 2024
MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning Rex Liu Xin Liu 38 1 0 08 Aug 2024
SIGMA:Sinkhorn-Guided Masked Video Modeling Mohammadreza Salehi Michael Dorkenwald Fida Mohammad Thoker E. Gavves Cees G. M. Snoek Yuki M. Asano 47 3 0 22 Jul 2024
BrainMAE: A Region-aware Self-supervised Learning Framework for Brain Signals Yifan Yang Yutong Mao Xufu Liu Xiao Liu 29 1 0 24 Jun 2024
EchoGuide: Active Acoustic Guidance for LLM-Based Eating Event Analysis from Egocentric Videos Vineet Parikh Saif Mahmud Devansh Agarwal Ke Li François Guimbretière Cheng Zhang 21 3 0 15 Jun 2024
OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation Junke Wang Yi-Xin Jiang Zehuan Yuan Binyue Peng Zuxuan Wu Yu-Gang Jiang ViT VGen 78 36 0 13 Jun 2024
Image and Video Tokenization with Binary Spherical Quantization Yue Zhao Yuanjun Xiong Philipp Krahenbuhl 33 17 0 11 Jun 2024
FILS: Self-Supervised Video Feature Prediction In Semantic Language Space Mona Ahmadian Frank Guerin Andrew Gilbert 44 1 0 05 Jun 2024
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning Sucheng Ren Hongru Zhu Chen Wei Yijiang Li Alan L. Yuille Cihang Xie AI4TS VGen SSL 51 1 0 24 May 2024
BIMM: Brain Inspired Masked Modeling for Video Representation Learning Zhifan Wan Jie M. Zhang Chang-bo Li Shiguang Shan 67 0 0 21 May 2024
All in One Framework for Multimodal Re-identification in the Wild He Li Mang Ye Ming Zhang Bo Du 33 9 0 08 May 2024
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges Badri N. Patro Vijay Srinivas Agneeswaran Mamba 40 38 0 24 Apr 2024
Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning Mahsa Ehsanpour Ian Reid Hamid Rezatofighi ViT 32 0 0 08 Apr 2024
Transformer based Pluralistic Image Completion with Reduced Information Loss Qiankun Liu Yuqi Jiang Zhentao Tan Dongdong Chen Ying Fu Qi Chu Gang Hua Nenghai Yu ViT 60 11 0 31 Mar 2024
Enhancing Video Transformers for Action Understanding with VLM-aided Training Hui Lu Hu Jian Ronald Poppe A. A. Salah 34 1 0 24 Mar 2024
VideoMamba: State Space Model for Efficient Video Understanding Kunchang Li Xinhao Li Yi Wang Yinan He Yali Wang Limin Wang Yu Qiao Mamba 35 180 0 11 Mar 2024
Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection Chenchen Tao Chong Wang Yuexian Zou Xiaohao Peng Jiafei Wu Jiangbo Qian 34 2 0 02 Mar 2024
MV2MAE: Multi-View Video Masked Autoencoders Ketul Shah Robert Crandall Jie Xu Peng Zhou Marian George Mayank Bansal Rama Chellappa 20 4 0 29 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie M. Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 67 1 0 15 Jan 2024
Motion Guided Token Compression for Efficient Masked Video Modeling Yukun Feng Yangming Shi Fengze Liu Tan Yan 30 0 0 10 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun-Xiong Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 33 14 0 31 Dec 2023
M-BEV: Masked BEV Perception for Robust Autonomous Driving Siran Chen Yue Ma Yu Qiao Yali Wang 31 8 0 19 Dec 2023
Audio-Visual LLM for Video Understanding Fangxun Shu Lei Zhang Hao Jiang Cihang Xie VLM MLLM 19 38 0 11 Dec 2023
GIVT: Generative Infinite-Vocabulary Transformers Michael Tschannen Cian Eastwood Fabian Mentzer 12 34 0 04 Dec 2023
CAST: Cross-Attention in Space and Time for Video Action Recognition Dongho Lee Jongseo Lee Jinwoo Choi EgoV 35 12 0 30 Nov 2023
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer Jacob Zhiyuan Fang Skyler Zheng Vasu Sharma Robinson Piramuthu VLM 38 0 0 28 Nov 2023
Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance Fields Zhiyuan Min Yawei Luo Wei Yang Yuesong Wang Yi Yang 34 2 0 20 Nov 2023
Multi-entity Video Transformers for Fine-Grained Video Representation Learning Matthew Walmer Rose Kanjirathinkal Kai Sheng Tai Keyur Muzumdar Taipeng Tian Abhinav Shrivastava ViT 21 0 0 17 Nov 2023
PersonMAE: Person Re-Identification Pre-Training with Masked AutoEncoders Hezhen Hu Xiaoyi Dong Jianmin Bao Dongdong Chen Lu Yuan Dong Chen Houqiang Li 20 3 0 08 Nov 2023
Asymmetric Masked Distillation for Pre-Training Small Foundation Models Zhiyu Zhao Bingkun Huang Sen Xing Gangshan Wu Yu Qiao Limin Wang 29 5 0 06 Nov 2023
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation Lijun Yu José Lezama N. B. Gundavarapu Luca Versari Kihyuk Sohn ... Boqing Gong Ming-Hsuan Yang Irfan Essa David A. Ross Lu Jiang 12 278 0 09 Oct 2023
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video Xinhao Li Yuhan Zhu Limin Wang VLM 27 8 0 02 Oct 2023