DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition

DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition

9 December 2021

Roger Zimmermann

Papers citing "DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition"

6 / 6 papers shown

Title
STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition Dasom Ahn Sangwon Kim H. Hong ByoungChul Ko ViT 28 97 0 14 Oct 2022
VidTr: Video Transformer Without Convolutions Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen I. Marsic Joseph Tighe ViT 136 193 0 23 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 283 3,623 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,982 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 198 422 0 01 Feb 2021
How Much Position Information Do Convolutional Neural Networks Encode? Md. Amirul Islam Sen Jia Neil D. B. Bruce SSL 205 344 0 22 Jan 2020