Space-time Mixing Attention for Video Transformer

10 June 2021

Adrian Bulat

Juan-Manuel Perez-Rua

Swathikiran Sudhakaran

Brais Martínez

Georgios Tzimiropoulos

ViT

ArXiv PDF HTML

Papers citing "Space-time Mixing Attention for Video Transformer"

28 / 78 papers shown

Title
An Efficient Spatio-Temporal Pyramid Transformer for Action Detection Yuetian Weng Zizheng Pan Mingfei Han Xiaojun Chang Bohan Zhuang ViT 19 25 0 21 Jul 2022
Time Is MattEr: Temporal Self-supervision for Video Transformers Sukmin Yun Jaehyung Kim Dongyoon Han Hwanjun Song Jung-Woo Ha Jinwoo Shin ViT 19 12 0 19 Jul 2022
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin 39 114 0 16 Jul 2022
ST-Adapter: Parameter-Efficient Image-to-Video Transfer Learning Junting Pan Ziyi Lin Xiatian Zhu Jing Shao Hongsheng Li 27 191 0 27 Jun 2022
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers Junting Pan Adrian Bulat Fuwen Tan Xiatian Zhu L. Dudziak Hongsheng Li Georgios Tzimiropoulos Brais Martínez ViT 31 181 0 06 May 2022
SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition Victor Escorcia Ricardo Guerrero Xiatian Zhu Brais Martínez EgoV 30 9 0 10 Apr 2022
Vision Transformer with Cross-attention by Temporal Shift for Efficient Action Recognition Ryota Hashiguchi Toru Tamaki 20 6 0 01 Apr 2022
Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos Saghir Alfasly Jian Lu C. Xu Yuru Zou 42 18 0 06 Mar 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 162 360 0 24 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 47 238 0 12 Jan 2022
LocFormer: Enabling Transformers to Perform Temporal Moment Localization on Long Untrimmed Videos With a Feature Sampling Approach Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hiroya Takamura Qi Wu ViT 19 3 0 19 Dec 2021
Vision Transformer Based Video Hashing Retrieval for Tracing the Source of Fake Videos Pengfei Pei Xianfeng Zhao Yun Cao Jinchuan Li Xiaowei Yi ViT 24 8 0 15 Dec 2021
DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition Keli Zhang Pan Zhou Roger Zimmermann Shuicheng Yan ViT 32 21 0 09 Dec 2021
Prompting Visual-Language Models for Efficient Video Understanding Chen Ju Tengda Han Kunhao Zheng Ya Zhang Weidi Xie VPVLM VLM 33 363 0 08 Dec 2021
Adaptive Token Sampling For Efficient Vision Transformers Mohsen Fayyaz Soroush Abbasi Koohpayegani F. Jafari Sunando Sengupta Hamid Reza Vaezi Joze Eric Sommerlade Hamed Pirsiavash Juergen Gall ViT 16 146 0 30 Nov 2021
MorphMLP: An Efficient MLP-Like Backbone for Spatial-Temporal Representation Learning David Junhao Zhang Kunchang Li Yali Wang Yuxiang Chen Shashwat Chandra Yu Qiao Luoqi Liu Mike Zheng Shou AI4TS 27 30 0 24 Nov 2021
PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer Zitong Yu Yuming Shen Jingang Shi Hengshuang Zhao Philip Torr Guoying Zhao ViT MedIm 140 167 0 23 Nov 2021
With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition Evangelos Kazakos Jaesung Huh Arsha Nagrani Andrew Zisserman Dima Damen EgoV 50 45 0 01 Nov 2021
SAIC_Cambridge-HuPBA-FBK Submission to the EPIC-Kitchens-100 Action Recognition Challenge 2021 Swathikiran Sudhakaran Adrian Bulat Juan-Manuel Perez-Rua Alex Falcon Sergio Escalera Oswald Lanz Brais Martínez Georgios Tzimiropoulos 20 3 0 06 Oct 2021
Space Time Recurrent Memory Network Hung-Cuong Nguyen Chanho Kim Fuxin Li 28 3 0 14 Sep 2021
StarVQA: Space-Time Attention for Video Quality Assessment Fengchuang Xing Yuan-Gen Wang Hanpin Wang Leida Li Guopu Zhu ViT 22 22 0 22 Aug 2021
EAN: Event Adaptive Network for Enhanced Action Recognition Yuan Tian Yichao Yan Guangtao Zhai G. Guo Zhiyong Gao 35 41 0 22 Jul 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 283 1,984 0 09 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Nayeon Lee Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 290 980 0 27 Jan 2021
Human Action Recognition from Various Data Modalities: A Review Zehua Sun Qiuhong Ke Hossein Rahmani Mohammed Bennamoun Gang Wang Jun Liu MU 53 504 0 22 Dec 2020
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 285 2,017 0 28 Jul 2020
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,225 0 16 Nov 2016