Title
Adaptive Focus for Efficient Video Recognition Yulin Wang Zhaoxi Chen Haojun Jiang Shiji Song Yizeng Han Gao Huang 45 98 0 07 May 2021
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning Christoph Feichtenhofer Haoqi Fan Bo Xiong Ross B. Girshick Kaiming He SSL AI4TS 39 257 0 29 Apr 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 63 1,224 0 22 Apr 2021
MGSampler: An Explainable Sampling Strategy for Video Action Recognition Yuan Zhi Zhan Tong Limin Wang Gangshan Wu TTA 19 72 0 20 Apr 2021
Higher Order Recurrent Space-Time Transformer for Video Action Prediction Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Oswald Lanz 36 9 0 17 Apr 2021
Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos Yanghao Li Tushar Nagarajan Bo Xiong Kristen Grauman EgoV 51 84 0 16 Apr 2021
Few-Shot Action Recognition with Compromised Metric via Optimal Transport Su Lu Han-Jia Ye De-Chuan Zhan 26 18 0 08 Apr 2021
The SARAS Endoscopic Surgeon Action Detection (ESAD) dataset: Challenges and methods V. Bawa Gurkirt Singh Francis KapingA I. Skarga-Bandurova Elettra Oleari ... Li Li Armando Stabile Francesco Setti R. Muradore Fabio Cuzzolin 25 36 0 07 Apr 2021
Multiview Pseudo-Labeling for Semi-supervised Learning from Video Bo Xiong Haoqi Fan Kristen Grauman Christoph Feichtenhofer SSL 22 49 0 01 Apr 2021
Composable Augmentation Encoding for Video Representation Learning Chen Sun Arsha Nagrani Yonglong Tian Cordelia Schmid SSL AI4TS 37 17 0 01 Apr 2021
Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human Videos Annie S. Chen Suraj Nair Chelsea Finn 38 137 0 31 Mar 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 30 2,088 0 29 Mar 2021
No frame left behind: Full Video Action Recognition X. Liu S. Pintea F. Karimi Nejadasl Olaf Booij Jan van Gemert 19 40 0 29 Mar 2021
MDMMT: Multidomain Multimodal Transformer for Video Retrieval Maksim Dzabraev M. Kalashnikov Stepan Alekseevich Komkov Aleksandr Petiushko 24 128 0 19 Mar 2021
ACTION-Net: Multipath Excitation for Action Recognition Zhengwei Wang Qi She A. Smolic 3DPC 39 165 0 11 Mar 2021
ROAD: The ROad event Awareness Dataset for Autonomous Driving Gurkirt Singh Stephen Akrigg Manuele Di Maio Valentina Fontana Reza Javanmard Alitappeh ... Salman Khan S. Grazioso Andrew Bradley G. Gironimo Fabio Cuzzolin 32 89 0 23 Feb 2021
Win-Fail Action Recognition Paritosh Parmar B. Morris 24 5 0 15 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 283 1,984 0 09 Feb 2021
Temporal-Relational CrossTransformers for Few-Shot Action Recognition Toby Perrett A. Masullo T. Burghardt Majid Mirmehdi Dima Damen ViT 31 145 0 15 Jan 2021
Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts Kunpeng Li Zizhao Zhang Guanhang Wu Xuehan Xiong Chen-Yu Lee Zhichao Lu Y. Fu Tomas Pfister 29 5 0 11 Jan 2021
SMART Frame Selection for Action Recognition Shreyank N. Gowda Marcus Rohrbach Laura Sevilla-Lara 26 141 0 19 Dec 2020
TDN: Temporal Difference Networks for Efficient Action Recognition Limin Wang Zhan Tong Bin Ji Gangshan Wu 23 391 0 18 Dec 2020
Reconstructing Hand-Object Interactions in the Wild Zhe Cao Ilija Radosavovic Angjoo Kanazawa Jitendra Malik 3DH 25 146 0 17 Dec 2020
Multi-shot Temporal Event Localization: a Benchmark Xiaolong Liu Yao Hu S. Bai Fei Ding X. Bai Philip Torr 46 81 0 17 Dec 2020
GTA: Global Temporal Attention for Video Action Understanding Bo He Xitong Yang Zuxuan Wu Hao Chen Ser-Nam Lim Abhinav Shrivastava ViT 33 27 0 15 Dec 2020
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 38 185 0 11 Dec 2020
SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos A. Deliège A. Cioppa Silvio Giancola M. J. Seikavandi J. Dueholm Kamal Nasrollahi Guohao Li T. Moeslund Marc Van Droogenbroeck 18 152 0 26 Nov 2020
Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition Chun-Fu Chen Yikang Shen K. Ramakrishnan Rogerio Feris J. M. Cohn A. Oliva Quanfu Fan 23 95 0 22 Oct 2020
Learning to Sort Image Sequences via Accumulated Temporal Differences Gagan Kanojia Shanmuganathan Raman 19 0 0 22 Oct 2020
HAA500: Human-Centric Atomic Action Dataset with Curated Videos Jihoon Chung Cheng-hsin Wuu Hsuan-ru Yang Yu-Wing Tai Chi-Keung Tang 18 43 0 11 Sep 2020
Effective Action Recognition with Embedded Key Point Shifts Haozhi Cao Yuecong Xu Jianfei Yang K. Mao Jianxiong Yin Simon See 15 7 0 26 Aug 2020
PAN: Towards Fast Action Recognition via Learning Persistence of Appearance Can Zhang Yuexian Zou Guang Chen Lei Gan 15 39 0 08 Aug 2020
Approximated Bilinear Modules for Temporal Modeling Xinqi Zhu Chang Xu Langwen Hui Cewu Lu Dacheng Tao 25 23 0 25 Jul 2020
Hierarchical Contrastive Motion Learning for Video Action Recognition Xitong Yang Xiaodong Yang Sifei Liu Deqing Sun L. Davis Jan Kautz SSL 35 13 0 20 Jul 2020
MotionSqueeze: Neural Motion Feature Learning for Video Understanding Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho FAtt 20 128 0 20 Jul 2020
Temporal Distinct Representation Learning for Action Recognition Junwu Weng Donghao Luo Yabiao Wang Ying Tai Chengjie Wang Jilin Li Feiyue Huang Xudong Jiang Junsong Yuan 14 26 0 15 Jul 2020
Generalized Few-Shot Video Classification with Video Retrieval and Feature Generation Yongqin Xian Bruno Korbar Matthijs Douze Lorenzo Torresani Bernt Schiele Zeynep Akata VGen 18 18 0 09 Jul 2020
Aligning Videos in Space and Time Senthil Purushwalkam Tian-Chun Ye Saurabh Gupta Abhinav Gupta 30 23 0 09 Jul 2020
Rescaling Egocentric Vision Dima Damen Hazel Doughty G. Farinella Antonino Furnari Evangelos Kazakos ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 19 437 0 23 Jun 2020
Adaptive Interaction Modeling via Graph Operations Search Haoxin Li Weishi Zheng Yu Tao Haifeng Hu Jianhuang Lai 26 5 0 05 May 2020
TEA: Temporal Excitation and Aggregation for Action Recognition Yan-Ran Li Bin Ji Xintian Shi Jianguo Zhang Bin Kang Limin Wang ViT 25 439 0 03 Apr 2020
Knowing What, Where and When to Look: Efficient Video Action Modeling with Attention Juan-Manuel Perez-Rua Brais Martínez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang 48 19 0 02 Apr 2020
Learning Interactions and Relationships between Movie Characters Anna Kukleva Makarand Tapaswi Ivan Laptev 41 51 0 29 Mar 2020
Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications Biagio Brattoli Joseph Tighe Fedor Zhdanov Pietro Perona Krzysztof Chalupka VLM 137 127 0 03 Mar 2020
Dynamic Inference: A New Approach Toward Efficient Video Action Recognition Wenhao Wu Dongliang He Xiao Tan Shifeng Chen Yi Yang Shilei Wen 24 35 0 09 Feb 2020
Temporal Interlacing Network Hao Shao Shengju Qian Yu Liu 24 92 0 17 Jan 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 22 19 0 17 Jan 2020
A Multigrid Method for Efficiently Training Video Models Chaoxia Wu Ross B. Girshick Kaiming He Christoph Feichtenhofer Philipp Krahenbuhl 16 94 0 02 Dec 2019
More Is Less: Learning Efficient Video Representations by Big-Little Network and Depthwise Temporal Aggregation Quanfu Fan Chun-Fu Chen Hilde Kuehne Marco Pistoia David D. Cox 32 126 0 02 Dec 2019
Self-Supervised Learning by Cross-Modal Audio-Video Clustering Humam Alwassel D. Mahajan Bruno Korbar Lorenzo Torresani Guohao Li Du Tran SSL 42 428 0 28 Nov 2019