Title
Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics Jiangliu Wang Jianbo Jiao Linchao Bao Shengfeng He Yunhui Liu Wei Liu SSL 16 204 0 07 Apr 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 32 540 0 06 Apr 2019
Reinforcement Learning with Attention that Works: A Self-Supervised Approach Anthony Manchin Ehsan Abbasnejad Anton Van Den Hengel 30 60 0 06 Apr 2019
Attention Distillation for Learning Video Representations Miao Liu Xin Chen Yun C. Zhang Yin Li James M. Rehg 19 2 0 05 Apr 2019
Fast Weakly Supervised Action Segmentation Using Mutual Consistency Yaser Souri Mohsen Fayyaz Luca Minciullo Gianpiero Francesca Juergen Gall 13 52 0 05 Apr 2019
Video Classification with Channel-Separated Convolutional Networks Du Tran Heng Wang Lorenzo Torresani Matt Feiszli 3DV 20 580 0 04 Apr 2019
VideoBERT: A Joint Model for Video and Language Representation Learning Chen Sun Austin Myers Carl Vondrick Kevin Patrick Murphy Cordelia Schmid VLM SSL 6 1,233 0 03 Apr 2019
Multigrid Predictive Filter Flow for Unsupervised Learning on Videos Shu Kong Charless C. Fowlkes 23 16 0 02 Apr 2019
Med3D: Transfer Learning for 3D Medical Image Analysis Sihong Chen Kai Ma Yefeng Zheng MedIm 18 449 0 01 Apr 2019
RefineLoc: Iterative Refinement for Weakly-Supervised Action Localization Alejandro Pardo Humam Alwassel Fabian Caba Heilbron Ali K. Thabet Guohao Li 32 52 0 30 Mar 2019
Video Relationship Reasoning using Gated Spatio-Temporal Energy Graph Yao-Hung Hubert Tsai S. Divvala Louis-Philippe Morency Ruslan Salakhutdinov Ali Farhadi 27 103 0 25 Mar 2019
Learning Correspondence from the Cycle-Consistency of Time Xueliang Wang Allan Jabri Alexei A. Efros SSL 36 486 0 18 Mar 2019
SSN: Learning Sparse Switchable Normalization via SparsestMax Wenqi Shao Jiamin Ren Jingyu Li Ruimao Zhang Yudian Li Xiaogang Wang Ping Luo 26 56 0 09 Mar 2019
Video-based surgical skill assessment using 3D convolutional neural networks Isabel Funke S. T. Mees Jürgen Weitz Stefanie Speidel 16 173 0 06 Mar 2019
KT-Speech-Crawler: Automatic Dataset Construction for Speech Recognition from YouTube Videos Egor Lakomkin S. Magg C. Weber S. Wermter 18 19 0 01 Mar 2019
STAR-Net: Action Recognition using Spatio-Temporal Activation Reprojection William J. McNally A. Wong J. McPhee HAI 3DH 22 26 0 26 Feb 2019
Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey Longlong Jing Yingli Tian SSL 20 1,687 0 16 Feb 2019
Anomaly Locality in Video Surveillance Federico Landi Cees G. M. Snoek Rita Cucchiara 11 54 0 29 Jan 2019
Spatio-temporal Action Recognition: A Survey Amlaan Bhoi 29 12 0 27 Jan 2019
DistInit: Learning Video Representations Without a Single Labeled Video Rohit Girdhar Du Tran Lorenzo Torresani Deva Ramanan 27 54 0 26 Jan 2019
Audio-Visual Scene-Aware Dialog Huda AlAmri Vincent Cartillier Abhishek Das Jue Wang A. Cherian ... Tim K. Marks Chiori Hori Peter Anderson Stefan Lee Devi Parikh VGen 25 189 0 25 Jan 2019
DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition Zheng Shou Xudong Lin Yannis Kalantidis Laura Sevilla-Lara Marcus Rohrbach Shih-Fu Chang Zhicheng Yan VGen 37 120 0 11 Jan 2019
Cricket stroke extraction: Towards creation of a large-scale cricket actions dataset Arpan Gupta S. Muthiah 22 6 0 10 Jan 2019
Mutual Context Network for Jointly Estimating Egocentric Gaze and Actions Yifei Huang Zhenqiang Li Minjie Cai Yoichi Sato EgoV 19 63 0 07 Jan 2019
Action2Vec: A Crossmodal Embedding Approach to Action Learning Meera Hahn Andrew Silva James M. Rehg 20 58 0 02 Jan 2019
Actor Conditioned Attention Maps for Video Action Detection Oytun Ulutan S. Rallapalli M. Srivatsa Carlos Torres B. S. Manjunath 16 42 0 30 Dec 2018
Class-Aware Adversarial Lung Nodule Synthesis in CT Images J. Yang Siqi Liu Sasa Grbic A. Setio Zhoubing Xu Eli Gibson G. Chabin Bogdan Georgescu Andrew F. Laine Dorin Comaniciu MedIm GAN 42 29 0 28 Dec 2018
D3D: Distilled 3D Networks for Video Action Recognition Jonathan C. Stroud David A. Ross Chen Sun Jia Deng Rahul Sukthankar 3DPC 30 158 0 19 Dec 2018
From FiLM to Video: Multi-turn Question Answering with Multi-modal Context T. Nguyen Shikhar Sharma Hannes Schulz Layla El Asri 15 33 0 17 Dec 2018
Improving the Performance of Unimodal Dynamic Hand-Gesture Recognition with Multimodal Training Mahdi Abavisani Hamid Reza Vaezi Joze Vishal M. Patel 20 131 0 14 Dec 2018
Adversarial Inference for Multi-Sentence Video Description J. S. Park Marcus Rohrbach Trevor Darrell Anna Rohrbach 16 79 0 13 Dec 2018
Nrityantar: Pose oblivious Indian classical dance sequence classification system V. Kaushik Prerana Mukherjee Brejesh Lall 14 9 0 13 Dec 2018
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 74 3,221 0 10 Dec 2018
Weakly Supervised Dense Event Captioning in Videos Xuguang Duan Wen-bing Huang Chuang Gan Jingdong Wang Wenwu Zhu Junzhou Huang 33 148 0 10 Dec 2018
Video Action Transformer Network Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman ViT 28 702 0 06 Dec 2018
Decompose to manipulate: Manipulable Object Synthesis in 3D Medical Images with Structured Image Decomposition Siqi Liu Eli Gibson Sasa Grbic Zhoubing Xu A. Setio J. Yang Bogdan Georgescu Dorin Comaniciu DiffM MedIm 33 18 0 04 Dec 2018
The Visual Centrifuge: Model-Free Layered Video Representations Jean-Baptiste Alayrac João Carreira Andrew Zisserman 21 48 0 04 Dec 2018
Timeception for Complex Action Recognition Noureldien Hussein E. Gavves A. Smeulders 21 212 0 04 Dec 2018
Towards Accurate Generative Models of Video: A New Metric & Challenges Thomas Unterthiner Sjoerd van Steenkiste Karol Kurach Raphaël Marinier Marcin Michalski Sylvain Gelly EGVM VGen 27 687 0 03 Dec 2018
Multi-modal Capsule Routing for Actor and Action Video Segmentation Conditioned on Natural Language Queries Bruce McIntosh Kevin Duarte Yogesh S Rawat M. Shah MedIm 21 17 0 02 Dec 2018
Graph-Based Global Reasoning Networks Yunpeng Chen Marcus Rohrbach Zhicheng Yan Shuicheng Yan Jiashi Feng Yannis Kalantidis GNN NAI 268 457 0 30 Nov 2018
Iterative Projection and Matching: Finding Structure-preserving Representatives and Its Application to Computer Vision M. Joneidi Alireza Zaeemzadeh Nazanin Rahnavard M. Shah 30 13 0 29 Nov 2018
Unsupervised Meta-Learning For Few-Shot Image Classification Siavash Khodadadeh Ladislau Bölöni M. Shah SSL VLM 15 138 0 28 Nov 2018
Self-Supervised Spatiotemporal Feature Learning via Video Rotation Prediction Longlong Jing Xiaodong Yang Jingen Liu Yingli Tian 29 154 0 28 Nov 2018
Uncertainty aware audiovisual activity recognition using deep Bayesian variational inference Mahesh Subedar R. Krishnan P. López-Meyer Omesh Tickoo Jonathan Huang BDL EDL UQCV 29 0 0 27 Nov 2018
Evolving Space-Time Neural Architectures for Videos A. Piergiovanni A. Angelova Alexander Toshev Michael S. Ryoo 26 57 0 26 Nov 2018
Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation P. Ghosh Yi Yao L. Davis Ajay Divakaran 32 81 0 26 Nov 2018
Temporal Bilinear Networks for Video Action Recognition Yanghao Li Sijie Song Yuqi Li Jiaying Liu 6 34 0 25 Nov 2018
RGB-D Based Action Recognition with Light-weight 3D Convolutional Networks Haokui Zhang Ying Li Peng Wang Yu Liu Chunhua Shen 3DPC 19 9 0 24 Nov 2018
Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles Dahun Kim Donghyeon Cho In So Kweon SSL 17 343 0 24 Nov 2018