Efficient Video Transformers with Spatial-Temporal Token Selection

23 November 2021

Zuxuan Wu

Papers citing "Efficient Video Transformers with Spatial-Temporal Token Selection"

21 / 71 papers shown

Title
Efficient Video Classification Using Fewer Frames S. Bhardwaj Mukundhan Srinivasan Mitesh M. Khapra 68 88 0 27 Feb 2019
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 164 3,273 0 10 Dec 2018
AdaFrame: Adaptive Frame Selection for Fast Video Recognition Zuxuan Wu Caiming Xiong Chih-Yao Ma R. Socher L. Davis 168 198 0 29 Nov 2018
TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin Chuang Gan Song Han 98 1,689 0 20 Nov 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.7K 94,770 0 11 Oct 2018
Dual Encoding for Zero-Example Video Retrieval Jianfeng Dong Xirong Li Chaoxi Xu S. Ji Yuan He Gang Yang Xun Wang 112 270 0 17 Sep 2018
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 183 499 0 24 Apr 2018
Compressed Video Action Recognition Chao-Yuan Wu Manzil Zaheer Hexiang Hu R. Manmatha Alex Smola Philipp Krahenbuhl 133 325 0 02 Dec 2017
A Closer Look at Spatiotemporal Convolutions for Action Recognition Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri 215 3,030 0 30 Nov 2017
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? Kensho Hara Hirokatsu Kataoka Y. Satoh 3DPC 123 1,934 0 27 Nov 2017
Decoupled Weight Decay Regularization I. Loshchilov Frank Hutter OffRL 144 2,136 0 14 Nov 2017
The "something something" video database for learning and evaluating visual common sense Raghav Goyal Samira Ebrahimi Kahou Vincent Michalski Joanna Materzynska S. Westphal ... Moritz Mueller-Freitag F. Hoppe Christian Thurau Ingo Bax Roland Memisevic VLM 84 1,531 0 13 Jun 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 687 131,526 0 12 Jun 2017
Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour Priya Goyal Piotr Dollár Ross B. Girshick P. Noordhuis Lukasz Wesolowski Aapo Kyrola Andrew Tulloch Yangqing Jia Kaiming He 3DH 126 3,678 0 08 Jun 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 229 8,015 0 22 May 2017
The Kinetics Human Action Video Dataset W. Kay João Carreira Karen Simonyan Brian Zhang Chloe Hillier ... Tim Green T. Back Apostol Natsev Mustafa Suleyman Andrew Zisserman 250 3,802 0 19 May 2017
Categorical Reparameterization with Gumbel-Softmax Eric Jang S. Gu Ben Poole BDL 315 5,364 0 03 Nov 2016
SGDR: Stochastic Gradient Descent with Warm Restarts I. Loshchilov Frank Hutter ODL 327 8,116 0 13 Aug 2016
Convolutional Two-Stream Network Fusion for Video Action Recognition Christoph Feichtenhofer A. Pinz Andrew Zisserman 160 2,611 0 22 Apr 2016
End-to-end Learning of Action Detection from Frame Glimpses in Videos Serena Yeung Olga Russakovsky Greg Mori Li Fei-Fei EgoV 106 608 0 22 Nov 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.8K 150,039 0 22 Dec 2014