BIMM: Brain Inspired Masked Modeling for Video Representation Learning

21 May 2024

Papers citing "BIMM: Brain Inspired Masked Modeling for Video Representation Learning"

37 / 37 papers shown

Title
A Dual-Stream Neural Network Explains the Functional Segregation of Dorsal and Ventral Visual Pathways in Human Brains Minkyu Choi Kuan Han Xiaokai Wang Yizhen Zhang Zhongming Liu 66 14 0 20 Oct 2023
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding Zijiao Chen Jiaxin Qing Tiange Xiang Wan Lin Yue J. Zhou DiffM MedIm 86 154 0 13 Nov 2022
MixFormer: End-to-End Tracking with Iterative Mixed Attention Yutao Cui Jiang Cheng Limin Wang Gangshan Wu VOT 114 473 0 21 Mar 2022
Masked Feature Prediction for Self-Supervised Visual Pre-Training Chen Wei Haoqi Fan Saining Xie Chaoxia Wu Alan Yuille Christoph Feichtenhofer ViT 145 668 0 16 Dec 2021
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo ViT 103 243 0 24 Nov 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 465 7,757 0 11 Nov 2021
Video Swin Transformer Ze Liu Jia Ning Yue Cao Yixuan Wei Zheng Zhang Stephen Lin Han Hu ViT 103 1,482 0 24 Jun 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 274 2,826 0 15 Jun 2021
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 285 5,030 0 31 May 2021
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning Christoph Feichtenhofer Haoqi Fan Bo Xiong Ross B. Girshick Kaiming He SSL AI4TS 99 262 0 29 Apr 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 132 1,259 0 22 Apr 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 222 2,150 0 29 Mar 2021
Transformer Tracking Xin Chen Bin Yan Jiawen Zhu Dong Wang Xiaoyun Yang Huchuan Lu ViT 69 957 0 29 Mar 2021
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin B. Guo ViT 450 21,439 0 25 Mar 2021
DeepViT: Towards Deeper Vision Transformer Daquan Zhou Bingyi Kang Xiaojie Jin Linjie Yang Xiaochen Lian Zihang Jiang Qibin Hou Jiashi Feng ViT 99 522 0 22 Mar 2021
VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples Tian Pan Yibing Song Tianyu Yang Wenhao Jiang Wei Liu 76 225 0 10 Mar 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 415 4,953 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 381 2,053 0 09 Feb 2021
Training data-efficient image transformers & distillation through attention Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou ViT 387 6,768 0 23 Dec 2020
Self-supervised Co-training for Video Representation Learning Tengda Han Weidi Xie Andrew Zisserman SSL 242 319 0 19 Oct 2020
Self-supervised Video Representation Learning by Pace Prediction Jiangliu Wang Jianbo Jiao Yunhui Liu SSL AI4TS 71 235 0 13 Aug 2020
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 415 13,048 0 26 May 2020
Asynchronous Interaction Aggregation for Action Detection Jiajun Tang Jinchao Xia Xinzhi Mu Bo Pang Cewu Lu 63 120 0 16 Apr 2020
SpeedNet: Learning the Speediness in Videos Sagie Benaim Ariel Ephrat Oran Lang Inbar Mosseri William T. Freeman Michael Rubinstein Michal Irani Tali Dekel 69 260 0 13 Apr 2020
A Simple Framework for Contrastive Learning of Visual Representations Ting-Li Chen Simon Kornblith Mohammad Norouzi Geoffrey E. Hinton SSL 369 18,778 0 13 Feb 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 511 42,449 0 03 Dec 2019
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 201 12,085 0 13 Nov 2019
Video Representation Learning by Dense Predictive Coding Tengda Han Weidi Xie Andrew Zisserman SSL 95 361 0 10 Sep 2019
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 166 3,274 0 10 Dec 2018
Self-Supervised Spatiotemporal Feature Learning via Video Rotation Prediction Longlong Jing Xiaodong Yang Jingen Liu Yingli Tian 68 156 0 28 Nov 2018
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions Chunhui Gu Chen Sun David A. Ross Carl Vondrick C. Pantofaru ... G. Toderici Susanna Ricco Rahul Sukthankar Cordelia Schmid Jitendra Malik VGen 107 1,030 0 23 May 2017
Temporal Segment Networks for Action Recognition in Videos Limin Wang Yuanjun Xiong Zhe Wang Yu Qiao Dahua Lin Xiaoou Tang Luc Van Gool ViT 114 810 0 08 May 2017
Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dollár Ross B. Girshick ObjD 352 27,195 0 20 Mar 2017
Going Deeper with Convolutions Christian Szegedy Wei Liu Yangqing Jia P. Sermanet Scott E. Reed Dragomir Anguelov D. Erhan Vincent Vanhoucke Andrew Rabinovich 468 43,658 0 17 Sep 2014
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 1.7K 39,547 0 01 Sep 2014
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 413 43,667 0 01 May 2014
UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild K. Soomro Amir Zamir M. Shah CLIP VGen 152 6,148 0 03 Dec 2012