Time Is MattEr: Temporal Self-supervision for Video Transformers

19 July 2022

Papers citing "Time Is MattEr: Temporal Self-supervision for Video Transformers"

28 / 28 papers shown

Title
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy Xiang Li Cristina Mata J. Park Kumara Kahatapitiya Yoo Sung Jang ... Kanchana Ranasinghe R. Burgert Mu Cai Yong Jae Lee Michael S. Ryoo LM&Ro 120 31 0 28 Jun 2024
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 123 249 0 12 Jan 2022
Mask2Former for Video Instance Segmentation Bowen Cheng Anwesa Choudhuri Ishan Misra Alexander Kirillov Rohit Girdhar Alex Schwing VOS 100 170 0 20 Dec 2021
Space-time Mixing Attention for Video Transformer Adrian Bulat Juan-Manuel Perez-Rua Swathikiran Sudhakaran Brais Martínez Georgios Tzimiropoulos ViT 91 127 0 10 Jun 2021
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers Mandela Patrick Dylan Campbell Yuki M. Asano Ishan Misra Ishan Misra Florian Metze Christoph Feichtenhofer Andrea Vedaldi João F. Henriques 86 280 0 09 Jun 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 225 2,167 0 29 Mar 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 389 2,063 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 264 432 0 01 Feb 2021
Training data-efficient image transformers & distillation through attention Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou ViT 389 6,802 0 23 Dec 2020
MASKER: Masked Keyword Regularization for Reliable Text Classification S. Moon Sangwoo Mo Kimin Lee Jaeho Lee Jinwoo Shin 112 38 0 17 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 670 41,430 0 22 Oct 2020
Noise or Signal: The Role of Image Backgrounds in Object Recognition Kai Y. Xiao Logan Engstrom Andrew Ilyas Aleksander Madry 143 387 0 17 Jun 2020
RandAugment: Practical automated data augmentation with a reduced search space E. D. Cubuk Barret Zoph Jonathon Shlens Quoc V. Le MQ 250 3,502 0 30 Sep 2019
Only Time Can Tell: Discovering Temporal Data for Temporal Modeling Laura Sevilla-Lara Shengxin Cindy Zha Zhicheng Yan Vedanuj Goswami Matt Feiszli Lorenzo Torresani 89 76 0 19 Jul 2019
REPAIR: Removing Representation Bias by Dataset Resampling Yi Li Nuno Vasconcelos FaML 79 287 0 16 Apr 2019
Deep Anomaly Detection with Outlier Exposure Dan Hendrycks Mantas Mazeika Thomas G. Dietterich OODD 183 1,487 0 11 Dec 2018
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 169 3,282 0 10 Dec 2018
TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin Chuang Gan Song Han 98 1,692 0 20 Nov 2018
A Closer Look at Spatiotemporal Convolutions for Action Recognition Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri 235 3,033 0 30 Nov 2017
Training Confidence-calibrated Classifiers for Detecting Out-of-Distribution Samples Kimin Lee Honglak Lee Kibok Lee Jinwoo Shin OODD 120 882 0 26 Nov 2017
Decoupled Weight Decay Regularization I. Loshchilov Frank Hutter OffRL 149 2,151 0 14 Nov 2017
Unsupervised Representation Learning by Sorting Sequences Hsin-Ying Lee Jia-Bin Huang Maneesh Kumar Singh Ming-Hsuan Yang SSL DRL 77 536 0 03 Aug 2017
The "something something" video database for learning and evaluating visual common sense Raghav Goyal Samira Ebrahimi Kahou Vincent Michalski Joanna Materzynska S. Westphal ... Moritz Mueller-Freitag F. Hoppe Christian Thurau Ingo Bax Roland Memisevic VLM 98 1,542 0 13 Jun 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 730 132,363 0 12 Jun 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 235 8,038 0 22 May 2017
The Kinetics Human Action Video Dataset W. Kay João Carreira Karen Simonyan Brian Zhang Chloe Hillier ... Tim Green T. Back Apostol Natsev Mustafa Suleyman Andrew Zisserman 254 3,815 0 19 May 2017
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 324 20,086 0 07 Oct 2016
Two-Stream Convolutional Networks for Action Recognition in Videos Karen Simonyan Andrew Zisserman 256 7,542 0 09 Jun 2014