VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

23 March 2022

Papers citing "VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training"

50 / 719 papers shown

Title
Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation Learning of Vision-based Autonomous Driving Yichen Xie Hongge Chen Gregory P. Meyer Yong Jae Lee Eric M. Wolff Masayoshi Tomizuka Wei Zhan Yuning Chai Xin Huang 3DPC 55 1 0 23 Feb 2024
Attention-Guided Masked Autoencoders For Learning Image Representations Leon Sick Dominik Engel Pedro Hermosilla Timo Ropinski 34 1 0 23 Feb 2024
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions Akash Ghosh Arkadeep Acharya Sriparna Saha Vinija Jain Aman Chadha VLM 59 26 0 20 Feb 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 50 29 0 20 Feb 2024
VGMShield: Mitigating Misuse of Video Generative Models Yan Pang Yang Zhang Tianhao Wang 42 3 0 20 Feb 2024
Learning Causal Domain-Invariant Temporal Dynamics for Few-Shot Action Recognition Yuke Li Guangyi Chen Ben Abramowitz Stefano Anzellotti Donglai Wei TTA 42 1 0 20 Feb 2024
Revisiting Feature Prediction for Learning Visual Representations from Video Adrien Bardes Q. Garrido Jean Ponce Xinlei Chen Michael G. Rabbat Yann LeCun Mahmoud Assran Nicolas Ballas MDE VLM 95 75 0 15 Feb 2024
Towards Privacy-Aware Sign Language Translation at Scale Phillip Rust Bowen Shi Skyler Wang Necati Cihan Camgöz Jean Maillard SLR 47 14 0 14 Feb 2024
Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos Yang Qian Yinan Sun A. Kargarandehkordi Parnian Azizian O. Mutlu Saimourya Surabhi Pingyi Chen Zain Jabbar Dennis Paul Wall Peter Washington OffRL 29 1 0 14 Feb 2024
Leveraging Self-Supervised Instance Contrastive Learning for Radar Object Detection Colin Decourt R. V. Rullen D. Salle Thomas Oberlin SSL 40 0 0 13 Feb 2024
BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind Yuanyuan Mao Xin Lin Qin Ni Liang He 29 3 0 12 Feb 2024
NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties Jingyuan Sun Mingxiao Li Zijiao Chen Marie-Francine Moens VGen 36 7 0 02 Feb 2024
Multi-Modal Machine Learning Framework for Automated Seizure Detection in Laboratory Rats Aaron D. Mullen Samuel E. Armstrong Jasmine Perdeh Bjorn Bauer Jeff Talbert V. Bumgardner 27 0 0 01 Feb 2024
Machine Unlearning for Image-to-Image Generative Models Guihong Li Hsiang Hsu Chun-Fu Chen R. Marculescu MU VLM 79 26 0 01 Feb 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger Florentin Wörgötter Alexander S. Ecker 43 3 0 29 Jan 2024
MV2MAE: Multi-View Video Masked Autoencoders Ketul Shah Robert Crandall Jie Xu Peng Zhou Marian George Mayank Bansal Rama Chellappa 38 4 0 29 Jan 2024
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities Yiyuan Zhang Xiaohan Ding Kaixiong Gong Yixiao Ge Ying Shan Xiangyu Yue ViT 22 7 0 25 Jan 2024
Rethinking Patch Dependence for Masked Autoencoders Letian Fu Long Lian Renhao Wang Baifeng Shi Xudong Wang Adam Yala Trevor Darrell Alexei A. Efros Ken Goldberg 39 14 0 25 Jan 2024
Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces Juan Hu Xin Liao Difei Gao Satoshi Tsutsui Qian Wang Zheng Qin Mike Zheng Shou 41 4 0 24 Jan 2024
GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition Xingyu Song Zhan Li Shi Chen K. Demachi 35 1 0 24 Jan 2024
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews) Shih-Han Chou Matthew Kowal Yasmin Niknam Diana Moyano Shayaan Mehdi ... Cheng Zhang Ian Knopke S. Kocak Leonid Sigal Yalda Mohsenzadeh 38 1 0 23 Jan 2024
Jointly Modeling Spatio-Temporal Features of Tactile Signals for Action Classification Jimmy Lin Junkai Li Jiasi Gao Weizhi Ma Yang Liu 22 0 0 21 Jan 2024
Understanding Video Transformers via Universal Concept Discovery M. Kowal Achal Dave Rares Ambrus Adrien Gaidon Konstantinos G. Derpanis P. Tokmakov ViT 39 8 0 19 Jan 2024
Learning to Visually Connect Actions and their Effects Eric Peh Paritosh Parmar Basura Fernando 24 2 0 19 Jan 2024
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning Chenyu Wang Weixin Luo Qianyu Chen Haonan Mai Jindi Guo Sixun Dong Xiaohua Xuan MLLM LLMAG 52 19 0 19 Jan 2024
Reconstructing the Invisible: Video Frame Restoration through Siamese Masked Conditional Variational Autoencoder Yongchen Zhou Richard Jiang 24 0 0 18 Jan 2024
CrossVideo: Self-supervised Cross-modal Contrastive Learning for Point Cloud Video Understanding Yunze Liu Changxi Chen Zifan Wang Li Yi 3DPC 33 3 0 17 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 67 1 0 15 Jan 2024
HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition Guoying Zhao Zheng Lian Bin Liu Jianhua Tao 56 29 0 11 Jan 2024
Motion Guided Token Compression for Efficient Masked Video Modeling Yukun Feng Yangming Shi Fengze Liu Tan Yan 43 0 0 10 Jan 2024
FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild Zhi-Song Liu Robin Courant Vicky Kalogeiton 42 6 0 08 Jan 2024
Dr $^2$ Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning Chen Zhao Shuming Liu K. Mangalam Guocheng Qian Fatimah Zohra Abdulmohsen Alghannam Jitendra Malik Guohao Li 54 3 0 08 Jan 2024
Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification Wentao Zhu 40 4 0 08 Jan 2024
MERBench: A Unified Evaluation Benchmark for Multimodal Emotion Recognition Zheng Lian Guoying Zhao Yong Ren Hao Gu Haiyang Sun Lan Chen Bin Liu Jianhua Tao 28 12 0 07 Jan 2024
Retrieval-Augmented Egocentric Video Captioning Jilan Xu Yifei Huang Junlin Hou Guo Chen Yue Zhang Rui Feng Weidi Xie EgoV 62 29 0 01 Jan 2024
Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence Ruizhuo Xu Linzhi Huang Mei Wang Jiani Hu Weihong Deng ViT MedIm 37 1 0 01 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 44 14 0 31 Dec 2023
SVFAP: Self-supervised Video Facial Affect Perceiver Guoying Zhao Zheng Lian Kexin Wang Yu He Ming Xu Haiyang Sun Bin Liu Jianhua Tao 56 14 0 31 Dec 2023
Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization Ioanna Ntinou Enrique Sanchez Georgios Tzimiropoulos 55 4 0 29 Dec 2023
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Ping Luo Jiebo Luo Chenliang Xu VLM 61 84 0 29 Dec 2023
SAIC: Integration of Speech Anonymization and Identity Classification Ming Cheng Xingjian Diao Shitong Cheng Wenjun Liu 53 6 0 23 Dec 2023
CaptainCook4D: A dataset for understanding errors in procedural activities Rohith Peddi Shivvrat Arya B. Challa Likhitha Pallapothula Akshay Vyas ... Vasundhara Komaragiri Eric D. Ragan Nicholas Ruozzi Yu Xiang Vibhav Gogate 69 8 0 22 Dec 2023
Bootstrap Masked Visual Modeling via Hard Patches Mining Haochen Wang Junsong Fan Yuxi Wang Kaiyou Song Tiancai Wang Xiangyu Zhang Zhaoxiang Zhang 47 5 0 21 Dec 2023
No More Shortcuts: Realizing the Potential of Temporal Self-Supervision I. Dave Simon Jenni Mubarak Shah 38 7 0 20 Dec 2023
M-BEV: Masked BEV Perception for Robust Autonomous Driving Siran Chen Yue Ma Yu Qiao Yali Wang 45 8 0 19 Dec 2023
Text-Conditioned Resampler For Long Form Video Understanding Bruno Korbar Yongqin Xian A. Tonioni Andrew Zisserman Federico Tombari 38 12 0 19 Dec 2023
T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning Weijie Wei F. Karimi Nejadasl Theo Gevers Martin R. Oswald 3DPC 44 3 0 15 Dec 2023
Data-Efficient Multimodal Fusion on a Single GPU Noël Vouitsis Zhaoyan Liu S. Gorti Valentin Villecroze Jesse C. Cresswell Guangwei Yu G. Loaiza-Ganem M. Volkovs 51 3 0 15 Dec 2023
Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception Tianlin Li Wentao Wu Chenglong Li Zhicheng Zhao Zhe Chen Yukai Shi Jin Tang 51 4 0 15 Dec 2023
Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained Locality Learning Matters in Consistency Regularization W. Pan Zhe Xu Jiangpeng Yan Zihan Wu Raymond Kai-Yu Tong Xiu Li Jianhua Yao ISeg 28 1 0 14 Dec 2023