Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

22 May 2017

Papers citing "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset"

50 / 1,476 papers shown

Title
Rethinking CNN Models for Audio Classification Kamalesh Palanisamy Dipika Singhania Angela Yao SSL 33 144 0 22 Jul 2020
Recurrent Exposure Generation for Low-Light Face Detection Jinxiu Liang Jingwen Wang Yuhui Quan Tianyi Chen Jiaying Liu Haibin Ling Yong-mei Xu CVBM 42 66 0 21 Jul 2020
MovieNet: A Holistic Dataset for Movie Understanding Qingqiu Huang Yu Xiong Anyi Rao Jiaze Wang Dahua Lin VGen 45 235 0 21 Jul 2020
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 433 596 0 21 Jul 2020
Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing Yapeng Tian Dingzeyu Li Chenliang Xu 34 181 0 21 Jul 2020
Hierarchical Contrastive Motion Learning for Video Action Recognition Xitong Yang Xiaodong Yang Sifei Liu Deqing Sun L. Davis Jan Kautz SSL 38 13 0 20 Jul 2020
Learning Joint Spatial-Temporal Transformations for Video Inpainting Yanhong Zeng Jianlong Fu Hongyang Chao ViT 33 291 0 20 Jul 2020
MotionSqueeze: Neural Motion Feature Learning for Video Understanding Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho FAtt 20 128 0 20 Jul 2020
Context-Aware RCNN: A Baseline for Action Detection in Videos Jianchao Wu Zhanghui Kuang Limin Wang Wayne Zhang Gangshan Wu 30 79 0 20 Jul 2020
MINI-Net: Multiple Instance Ranking Network for Video Highlight Detection Fa-Ting Hong Xuanteng Huang Weihong Li Weishi Zheng 24 61 0 20 Jul 2020
Social Adaptive Module for Weakly-supervised Group Activity Recognition Rui Yan Lingxi Xie Jinhui Tang Xiangbo Shu Qi Tian 27 86 0 18 Jul 2020
Learning to Discretely Compose Reasoning Module Networks for Video Captioning Ganchao Tan Daqing Liu Meng Wang Zhengjun Zha LRM 25 73 0 17 Jul 2020
Visual Relation Grounding in Videos Junbin Xiao Xindi Shang Xun Yang Sheng Tang Tat-Seng Chua 20 40 0 17 Jul 2020
Appearance-Preserving 3D Convolution for Video-based Person Re-identification Xinqian Gu Hong Chang Bingpeng Ma Hongkai Zhang Xilin Chen 3DH 3DPC 33 131 0 16 Jul 2020
Video-based Remote Physiological Measurement via Cross-verified Feature Disentangling Xuesong Niu Zitong Yu Hu Han Xiaobai Li Shiguang Shan Guoying Zhao 27 180 0 16 Jul 2020
Temporal Distinct Representation Learning for Action Recognition Junwu Weng Donghao Luo Yabiao Wang Ying Tai Chengjie Wang Jilin Li Feiyue Huang Xudong Jiang Junsong Yuan 17 26 0 15 Jul 2020
TinyVIRAT: Low-resolution Video Action Recognition Ugur Demir Yogesh S Rawat M. Shah 33 36 0 14 Jul 2020
Learning Semantics-enriched Representation via Self-discovery, Self-classification, and Self-restoration F. Haghighi M. Taher Zongwei Zhou Michael B. Gotway Jianming Liang MedIm 27 65 0 14 Jul 2020
Fusing Motion Patterns and Key Visual Information for Semantic Event Recognition in Basketball Videos Lifang Wu Zhou Yang Qi Wang Meng Jian Boxuan Zhao Junchi Yan Chang Wen Chen 29 33 0 13 Jul 2020
Lightweight Modules for Efficient Deep Learning based Image Restoration A. Lahiri Sourav Bairagya Sutanu Bera Siddhant Haldar P. Biswas SupR 32 36 0 11 Jul 2020
AViD Dataset: Anonymized Videos from Diverse Countries A. Piergiovanni Michael S. Ryoo 33 35 0 10 Jul 2020
Generalized Few-Shot Video Classification with Video Retrieval and Feature Generation Yongqin Xian Bruno Korbar Matthijs Douze Lorenzo Torresani Bernt Schiele Zeynep Akata VGen 18 18 0 09 Jul 2020
Aligning Videos in Space and Time Senthil Purushwalkam Tian-Chun Ye Saurabh Gupta Abhinav Gupta 30 23 0 09 Jul 2020
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Peng Gao Moitreya Chatterjee Chiori Hori Jonathan Le Roux Yongfeng Zhang Hongsheng Li A. Cherian 27 11 0 08 Jul 2020
Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition Lei Shi Yifan Zhang Jian Cheng Hanqing Lu 16 49 0 07 Jul 2020
VPN: Learning Video-Pose Embedding for Activities of Daily Living Srijan Das Saurav Sharma Rui Dai Francois Bremond Monique Thonnat ViT 33 122 0 06 Jul 2020
Attention-Oriented Action Recognition for Real-Time Human-Robot Interaction Ziyang Song Ziyi Yin Zejian Yuan Chong Zhang Wanchao Chi Yonggen Ling Shenghao Zhang 19 20 0 02 Jul 2020
Ultra2Speech -- A Deep Learning Framework for Formant Frequency Estimation and Tracking from Ultrasound Tongue Images Pramit Saha Yadong Liu B. Gick S. Fels 19 11 0 29 Jun 2020
Self-Supervised MultiModal Versatile Networks Jean-Baptiste Alayrac Adrià Recasens R. Schneider Relja Arandjelović Jason Ramapuram J. Fauw Lucas Smaira Sander Dieleman Andrew Zisserman SSL 40 372 0 29 Jun 2020
Automatic Operating Room Surgical Activity Recognition for Robot-Assisted Surgery Aidean Sharghi Helene Haugerud Daniel Oh Omid Mohareri 29 44 0 29 Jun 2020
Deepfake Detection using Spatiotemporal Convolutional Networks Oscar de Lima Sean Franklin Shreshtha Basu Blake Karwoski A. George 3DPC 20 110 0 26 Jun 2020
Rescaling Egocentric Vision Dima Damen Hazel Doughty G. Farinella Antonino Furnari Evangelos Kazakos ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 19 437 0 23 Jun 2020
AVLnet: Learning Audio-Visual Language Representations from Instructional Videos Andrew Rouditchenko Angie Boggust David Harwath Brian Chen D. Joshi ... Rogerio Feris Brian Kingsbury M. Picheny Antonio Torralba James R. Glass SSL 22 141 0 16 Jun 2020
Learn to cycle: Time-consistent feature discovery for action recognition Alexandros Stergiou R. Poppe 22 23 0 15 Jun 2020
Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization Junting Pan Siyu Chen Zheng Shou Yu Liu Jing Shao Hongsheng Li 3DPC 19 150 0 14 Jun 2020
Open-Narrow-Synechiae Anterior Chamber Angle Classification in AS-OCT Sequences Huaying Hao Huazhu Fu Yanwu Xu Jianlong Yang Fei Li Xiulan Zhang Jiang-Dong Liu Yitian Zhao 110 8 0 09 Jun 2020
WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos M. Gao Yingbo Zhou Ran Xu R. Socher Caiming Xiong 24 41 0 05 Jun 2020
Egocentric Object Manipulation Graphs Eadom Dessalene Michael Maynord Chinmaya Devaraj Cornelia Fermuller Yiannis Aloimonos EgoV 30 19 0 05 Jun 2020
Visually Guided Sound Source Separation using Cascaded Opponent Filter Network Lingyu Zhu Esa Rahtu 22 23 0 04 Jun 2020
Automatic Diagnosis of Pulmonary Embolism Using an Attention-guided Framework: A Large-scale Study Luyao Shi Deepta Rajan Shafiq Abedin Srikar Yellapragada David Beymer E. Dehghan 24 18 0 29 May 2020
SpotFast Networks with Memory Augmented Lateral Transformers for Lipreading Peratham Wiriyathammabhum 28 8 0 21 May 2020
Project RISE: Recognizing Industrial Smoke Emissions Yen-Chia Hsu Ting-Hao 'Kenneth' Huang Ting-Yao Hu P. Dille Sean Prendi Ryan N. Hoffman Anastasia Tsuhlares Jessica Pachuta Randy Sargent I. Nourbakhsh 45 19 0 13 May 2020
Compressing Recurrent Neural Networks Using Hierarchical Tucker Tensor Decomposition Miao Yin Siyu Liao Xiao-Yang Liu Xiaodong Wang Bo Yuan 45 24 0 09 May 2020
Condensed Movies: Story Based Retrieval with Contextual Embeddings Max Bain Arsha Nagrani A. Brown Andrew Zisserman 39 100 0 08 May 2020
Learning to Segment Actions from Observation and Narration Daniel Fried Jean-Baptiste Alayrac Phil Blunsom Chris Dyer S. Clark Aida Nematzadeh 33 31 0 07 May 2020
Exploiting Inter-Frame Regional Correlation for Efficient Action Recognition Yuecong Xu Jianfei Yang K. Mao Jianxiong Yin Simon See 8 11 0 06 May 2020
Adaptive Interaction Modeling via Graph Operations Search Haoxin Li Weishi Zheng Yu Tao Haifeng Hu Jianhuang Lai 26 5 0 05 May 2020
Span-based Localizing Network for Natural Language Video Localization Hao Zhang Aixin Sun Wei Jing Qiufeng Wang 32 313 0 29 Apr 2020
Low-latency hand gesture recognition with a low resolution thermal imager Maarten Vandersteegen Wouter Reusen Kristof Van Beeck 24 15 0 24 Apr 2020
Action recognition in real-world videos Waqas Sultani Qazi Ammar Arshad Chen Chen 26 2 0 22 Apr 2020