Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

22 May 2017

Papers citing "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset"

50 / 1,478 papers shown

Title
High-order Tensor Pooling with Attention for Action Recognition Lei Wang Ke Sun Piotr Koniusz 43 15 0 11 Oct 2021
Predicting decision-making in the future: Human versus Machine H. Ryu Uijong Ju C. Wallraven 3DH 28 0 0 09 Oct 2021
Procedure Planning in Instructional Videos via Contextual Modeling and Model-based Policy Learning Jing Bi Jiebo Luo Chenliang Xu 76 48 0 05 Oct 2021
Spatio-Temporal Video Representation Learning for AI Based Video Playback Style Prediction Rishubh Parihar Gaurav Ramola Ranajit Saha Raviprasad Kini Aniket Rege S. Velusamy 36 1 0 03 Oct 2021
Deep Learning-based Action Detection in Untrimmed Videos: A Survey Elahe Vahdani Yingli Tian 57 60 0 30 Sep 2021
Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation Jay Patravali Gaurav Mittal Ye Yu Fuxin Li Mei Chen 18 19 0 30 Sep 2021
The Challenge of Appearance-Free Object Tracking with Feedforward Neural Networks Girik Malik Drew Linsley Thomas Serre E. Mingolla VOT 27 7 0 30 Sep 2021
Motion-aware Contrastive Video Representation Learning via Foreground-background Merging Shuangrui Ding Maomao Li Tianyu Yang Rui Qian Haohang Xu Qingyi Chen Jue Wang Hongkai Xiong SSL 30 49 0 30 Sep 2021
Comparative Validation of Machine Learning Algorithms for Surgical Workflow and Skill Analysis with the HeiChole Benchmark M. Wagner Beat-Peter Müller-Stich A. Kisilenko Duc Tran P. Heger ... M. Frankenberg F. Mathis-Ullrich Lena Maier-Hein Stefanie Speidel S. Bodenstedt 30 67 0 30 Sep 2021
Information Elevation Network for Fast Online Action Detection Sunah Min Jinyoung Moon 24 0 0 28 Sep 2021
Physical Context and Timing Aware Sequence Generating GANs Hayato Futase Tomoki Tsujimura Tetsuya Kajimoto Hajime Kawarazaki Toshiyuki Suzuki Makoto Miwa Yutaka Sasaki GAN 35 0 0 28 Sep 2021
Modelling Neighbor Relation in Joint Space-Time Graph for Video Correspondence Learning Zixu Zhao Yueming Jin Pheng-Ann Heng SSL 42 21 0 28 Sep 2021
TSM: Temporal Shift Module for Efficient and Scalable Video Understanding on Edge Device Ji Lin Chuang Gan Kuan-Chieh Wang Song Han 45 64 0 27 Sep 2021
DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning Tongan Cai Haomiao Ni Ming-Chieh Yu Xiaolei Huang K. Wong John Volpi Jianmin Wang Stephen T. C. Wong 34 14 0 24 Sep 2021
Long Short View Feature Decomposition via Contrastive Video Representation Learning Nadine Behrmann Mohsen Fayyaz Juergen Gall M. Noroozi 18 36 0 23 Sep 2021
Natural Language Video Localization with Learnable Moment Proposals Shaoning Xiao Long Chen Jian Shao Yueting Zhuang Jun Xiao 14 43 0 22 Sep 2021
Unsupervised Abstract Reasoning for Raven's Problem Matrices Tao Zhuo Qian Huang Mohan S. Kankanhalli LRM 118 22 0 21 Sep 2021
Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions D. Curto Albert Clapés Javier Selva Sorina Smeureanu Julio C. S. Jacques Junior ... G. Guilera D. Leiva T. Moeslund Sergio Escalera Cristina Palmero 51 29 0 20 Sep 2021
A survey on deep learning approaches for breast cancer diagnosis Timothy C. H. Kwong S. Mazaheri MedIm 30 4 0 18 Sep 2021
Asymmetric 3D Context Fusion for Universal Lesion Detection Jiancheng Yang Yi He Kaiming Kuang Zudi Lin Hanspeter Pfister Bingbing Ni 3DPC MedIm 38 22 0 17 Sep 2021
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 152 362 0 17 Sep 2021
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou 23 46 0 14 Sep 2021
Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou 27 54 0 14 Sep 2021
Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding Zhenzhi Wang Limin Wang Tao Wu Tianhao Li Gangshan Wu AI4TS 33 116 0 10 Sep 2021
Spatiotemporal Inconsistency Learning for DeepFake Video Detection Zhihao Gu Yang Chen Taiping Yao Shouhong Ding Jilin Li Feiyue Huang Lizhuang Ma 26 149 0 04 Sep 2021
Revisiting 3D ResNets for Video Recognition Xianzhi Du Yeqing Li Huayu Chen Rui Qian Jing Li Irwan Bello 56 17 0 03 Sep 2021
Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition James Hong Matthew Fisher Michael Gharbi Kayvon Fatahalian 3DH 32 37 0 03 Sep 2021
TrouSPI-Net: Spatio-temporal attention on parallel atrous convolutions and U-GRUs for skeletal pedestrian crossing prediction Joseph Gesnouin Steve Pechberti B. Stanciulescu Fabien Moutarde 51 22 0 02 Sep 2021
SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric Videos Nada Osman Guglielmo Camporese Pasquale Coscia Lamberto Ballan EgoV 44 20 0 02 Sep 2021
LIGAR: Lightweight General-purpose Action Recognition Evgeny Izutov 15 3 0 30 Aug 2021
Searching for Two-Stream Models in Multivariate Space for Video Recognition Xinyu Gong Heng Wang Zheng Shou Matt Feiszli Zhangyang Wang Zhicheng Yan 42 9 0 30 Aug 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 94 43 0 29 Aug 2021
GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer Shuaicheng Li Qianggang Cao Lingbo Liu Kunlin Yang Shinan Liu Jun Hou Shuai Yi ViT 42 103 0 28 Aug 2021
Spatio-Temporal Self-Attention Network for Video Saliency Prediction Ziqiang Wang Zhi Liu Gongyang Li Yang Wang Tianhong Zhang Lihua Xu Jijun Wang 3DPC 43 44 0 24 Aug 2021
Support-Set Based Cross-Supervision for Video Grounding Xinpeng Ding N. Wang Shiwei Zhang De Cheng Xiaomeng Li Ziyuan Huang Mingqian Tang Xinbo Gao 33 42 0 24 Aug 2021
ParamCrop: Parametric Cubic Cropping for Video Contrastive Learning Zhiwu Qing Ziyuan Huang Shiwei Zhang Mingqian Tang Changxin Gao M. Ang Ronglei Ji Nong Sang 48 3 0 24 Aug 2021
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment Jianwei Yang Yonatan Bisk Jianfeng Gao 27 137 0 23 Aug 2021
MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition Jiawei Chen C. Ho ViT 26 77 0 20 Aug 2021
Weakly-supervised Joint Anomaly Detection and Classification Snehashis Majhi Srijan Das Francois Bremond Ratnakar Dash Pankaj K. Sa 19 20 0 20 Aug 2021
Video Relation Detection via Tracklet based Visual Transformer Kaifeng Gao Long Chen Yifeng Huang Jun Xiao ViT 29 29 0 19 Aug 2021
Social Fabric: Tubelet Compositions for Video Relation Detection Shuo Chen Zenglin Shi Pascal Mettes Cees G. M. Snoek ViT 41 21 0 18 Aug 2021
Look Who's Talking: Active Speaker Detection in the Wild You Jin Kim Hee-Soo Heo Soyeon Choe Soo-Whan Chung Yoohwan Kwon Bong-Jin Lee Youngki Kwon Joon Son Chung 52 20 0 17 Aug 2021
Temporal Action Segmentation with High-level Complex Activity Labels Guodong Ding Angela Yao 38 18 0 15 Aug 2021
Conditional Temporal Variational AutoEncoder for Action Video Prediction Xiaogang Xu Yi Wang Liwei Wang Bei Yu Jiaya Jia VGen 36 5 0 12 Aug 2021
Deep Motion Prior for Weakly-Supervised Temporal Action Localization Meng Cao Can Zhang Long Chen Mike Zheng Shou Yuexian Zou 35 21 0 12 Aug 2021
Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering Donggeon Lee Seongho Choi Youwon Jang Byoung-Tak Zhang 16 2 0 11 Aug 2021
Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data Kuluhan Binici N. Pham T. Mitra K. Leman 30 40 0 11 Aug 2021
Learning Action Completeness from Points for Weakly-supervised Temporal Action Localization Pilhyeon Lee H. Byun 29 64 0 11 Aug 2021
Learning to Cut by Watching Movies Alejandro Pardo Fabian Caba Heilbron Juan Carlos León Alcázar Ali K. Thabet Guohao Li VGen 58 20 0 09 Aug 2021
Skeleton-Contrastive 3D Action Representation Learning Fida Mohammad Thoker Hazel Doughty Cees G. M. Snoek SSL 31 130 0 08 Aug 2021