Title
Human Action Recognition and Prediction: A Survey Yu Kong Y. Fu 33 604 0 28 Jun 2018
Modeling Spatio-Temporal Human Track Structure for Action Localization Guilhem Chéron A. Osokin Ivan Laptev Cordelia Schmid 13 3 0 28 Jun 2018
Differentiable Learning-to-Normalize via Switchable Normalization Ping Luo Jiamin Ren Zhanglin Peng Ruimao Zhang Jingyu Li 11 176 0 28 Jun 2018
Tracking Emerges by Colorizing Videos Carl Vondrick Abhinav Shrivastava Alireza Fathi S. Guadarrama Kevin Patrick Murphy 27 375 0 25 Jun 2018
Best Vision Technologies Submission to ActivityNet Challenge 2018-Task: Dense-Captioning Events in Videos Yuan Liu Moyini Yao 17 1 0 25 Jun 2018
End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features Chiori Hori Huda AlAmri Jue Wang G. Wichern Takaaki Hori ... Raphael Gontijo-Lopes Abhishek Das Irfan Essa Dhruv Batra Devi Parikh VGen 18 125 0 21 Jun 2018
Qiniu Submission to ActivityNet Challenge 2018 Xiaoteng Zhang Yixin Bao Feiyun Zhang Kaiqin Hu Yicheng Wang Liang Zhu Qinzhu He Yining Lin Jie Shao Yao Peng 3DPC 28 3 0 12 Jun 2018
Massively Parallel Video Networks João Carreira Viorica Patraucean L. Mazaré Andrew Zisserman Simon Osindero 21 42 0 11 Jun 2018
Mining for meaning: from vision to language through multiple networks consensus Iulia Duta Andrei Liviu Nicolicioiu Simion-Vlad Bogolin Marius Leordeanu 18 3 0 05 Jun 2018
Videos as Space-Time Region Graphs Xinyu Wang Abhinav Gupta 24 752 0 05 Jun 2018
Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition Lei Shi Yifan Zhang Jian Cheng Hanqing Lu 9 29 0 20 May 2018
Graph Edge Convolutional Neural Networks for Skeleton Based Action Recognition Xikun Zhang Chang Xu Xinmei Tian Dacheng Tao 3DH GNN 30 157 0 16 May 2018
Towards an Unequivocal Representation of Actions Michael Wray Davide Moltisanti Dima Damen 16 4 0 10 May 2018
Revisiting Temporal Modeling for Video-based Person ReID J. Gao Ram Nevatia BDL 24 141 0 05 May 2018
On the effectiveness of task granularity for transfer learning F. Mahdisoltani Guillaume Berger W. Gharbieh David Fleet Roland Memisevic 9 57 0 24 Apr 2018
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 142 496 0 24 Apr 2018
Rethinking the Faster R-CNN Architecture for Temporal Action Localization Yu-Wei Chao Sudheendra Vijayanarasimhan Bryan Seybold David A. Ross Jia Deng Rahul Sukthankar ObjD 28 646 0 20 Apr 2018
Precise Temporal Action Localization by Evolving Temporal Proposals Haonan Qiu Yingbin Zheng Hao Ye Yao Lu Feng Wang Liang He 34 30 0 13 Apr 2018
SoccerNet: A Scalable Dataset for Action Spotting in Soccer Videos Silvio Giancola Mohieddine Amine Tarek Dghaily Guohao Li AI4TS 21 194 0 12 Apr 2018
STAIR Actions: A Video Dataset of Everyday Home Actions Yuya Yoshikawa Jiaqing Lin A. Takeuchi 22 35 0 12 Apr 2018
Audio-Visual Scene Analysis with Self-Supervised Multisensory Features Andrew Owens Alexei A. Efros SSL 51 745 0 10 Apr 2018
Fine-grained Activity Recognition in Baseball Videos A. Piergiovanni Michael S. Ryoo 27 74 0 09 Apr 2018
Layout-induced Video Representation for Recognizing Agent-in-Place Actions Ruichi Yu Hongcheng Wang Ang Li Jingxiao Zheng Vlad I. Morariu L. Davis 14 0 0 04 Apr 2018
Probing Physics Knowledge Using Tools from Developmental Psychology Luis S. Piloto Ari Weinstein TB Dhruva Arun Ahuja M. Berk Mirza Greg Wayne David Amos Chia-Chun Hung M. Botvinick 30 34 0 03 Apr 2018
DIY Human Action Data Set Generation Mehran Khodabandeh Hamid Reza Vaezi Joze Ilya Zharkov V. Pradeep 21 11 0 29 Mar 2018
Non-Linear Temporal Subspace Representations for Activity Recognition A. Cherian S. Sra Stephen Gould Richard I. Hartley 21 44 0 27 Mar 2018
Group Normalization Yuxin Wu Kaiming He 24 3,596 0 22 Mar 2018
Towards Universal Representation for Unseen Action Recognition Yi Zhu Yang Long Yu Guan Shawn D. Newsam Ling Shao AI4TS 22 100 0 22 Mar 2018
T-RECS: Training for Rate-Invariant Embeddings by Controlling Speed for Action Recognition Madan Ravi Ganesh Eric Hofesmann Byungsu Min Nadha Gafoor Jason J. Corso 26 1 0 21 Mar 2018
Actor and Action Video Segmentation from a Sentence Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek VLM 25 146 0 20 Mar 2018
Temporal Gaussian Mixture Layer for Videos A. Piergiovanni Michael S. Ryoo 29 86 0 16 Mar 2018
A Dataset and Architecture for Visual Reasoning with a Working Memory G. R. Yang Igor Ganichev Xiao-Jing Wang Jonathon Shlens David Sussillo 14 54 0 16 Mar 2018
Recurrent Residual Module for Fast Inference in Videos Bowen Pan Wuwei Lin Xiaolin Fang Chaoqin Huang Bolei Zhou Cewu Lu ObjD 28 33 0 27 Feb 2018
Real-Time End-to-End Action Detection with Two-Stream Networks Alaaeldin El-Nouby Graham W. Taylor 27 27 0 23 Feb 2018
DeepType: Multilingual Entity Linking by Neural Type System Evolution Jonathan Raiman O. Raiman BDL HAI 130 183 0 03 Feb 2018
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition Sijie Yan Yuanjun Xiong Dahua Lin GNN 80 4,091 0 23 Jan 2018
Let's Dance: Learning From Online Dance Videos Daniel Castro Steven Hickson Patsorn Sangkloy Bhavishya Mittal Sean Dai James Hays Irfan Essa 29 24 0 23 Jan 2018
Moments in Time Dataset: one million videos for event understanding Mathew Monfort A. Andonian Bolei Zhou K. Ramakrishnan Sarah Adel Bargal ... L. Brown Quanfu Fan Dan Gutfreund Carl Vondrick A. Oliva 47 538 0 09 Jan 2018
HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization Hang Zhao Antonio Torralba Lorenzo Torresani Zhicheng Yan VLM AI4TS 13 29 0 26 Dec 2017
Detect-and-Track: Efficient Pose Estimation in Videos Rohit Girdhar Georgia Gkioxari Lorenzo Torresani Manohar Paluri Du Tran 3DH 32 229 0 26 Dec 2017
Weakly Supervised Action Localization by Sparse Temporal Pooling Network P. Nguyen Ting Liu Gautam Prasad Bohyung Han WSOL 21 347 0 14 Dec 2017
Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification Saining Xie Chen Sun Jonathan Huang Z. Tu Kevin Patrick Murphy 3DH 43 1,308 0 13 Dec 2017
From Lifestyle Vlogs to Everyday Interactions David Fouhey Weicheng Kuo Alexei A. Efros Jitendra Malik 22 124 0 06 Dec 2017
A Closer Look at Spatiotemporal Convolutions for Action Recognition Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri 37 2,990 0 30 Nov 2017
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? Kensho Hara Hirokatsu Kataoka Y. Satoh 3DPC 26 1,910 0 27 Nov 2017
Appearance-and-Relation Networks for Video Classification Limin Wang Wei Li Wen Li Luc Van Gool 17 350 0 24 Nov 2017
Temporal Relational Reasoning in Videos Bolei Zhou A. Andonian Aude Oliva Antonio Torralba NAI 10 1,033 0 22 Nov 2017
Non-local Neural Networks Xinyu Wang Ross B. Girshick Abhinav Gupta Kaiming He OffRL 30 8,824 0 21 Nov 2017
Grounded Objects and Interactions for Video Captioning Chih-Yao Ma Asim Kadav I. Melvin Z. Kira G. Al-Regib H. Graf 35 6 0 16 Nov 2017
Attend and Interact: Higher-Order Object Interactions for Video Understanding Chih-Yao Ma Asim Kadav I. Melvin Z. Kira G. Al-Regib H. Graf 33 145 0 16 Nov 2017