Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

22 May 2017

Papers citing "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset"

50 / 1,563 papers shown

Title
DCVQE: A Hierarchical Transformer for Video Quality Assessment Zu-Hua Li Lei Yang ViT 42 2 0 10 Oct 2022
Multi-Scale Wavelet Transformer for Face Forgery Detection Jie Liu Jingjing Wang Peng Zhang Chunmao Wang Di Xie Shiliang Pu ViT CVBM 55 8 0 08 Oct 2022
GNM: A General Navigation Model to Drive Any Robot Dhruv Shah A. Sridhar Arjun Bhorkar Noriaki Hirose Sergey Levine 49 106 0 07 Oct 2022
Critical Learning Periods for Multisensory Integration in Deep Networks Michael Kleinman Alessandro Achille Stefano Soatto 44 10 0 06 Oct 2022
Focal and Global Spatial-Temporal Transformer for Skeleton-based Action Recognition Zhimin Gao Peitao Wang Pei Lv Xiaoheng Jiang Qi-dong Liu Pichao Wang Mingliang Xu Wanqing Li ViT 63 27 0 06 Oct 2022
AOE-Net: Entities Interactions Modeling with Adaptive Attention Mechanism for Temporal Action Proposals Generation Khoa T. Vo Sang Truong Kashu Yamazaki Bhiksha Raj Minh-Triet Tran Ngan Le 88 27 0 05 Oct 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 68 377 0 05 Oct 2022
ROAD-R: The Autonomous Driving Dataset with Logical Requirements Eleonora Giunchiglia Mihaela C. Stoian Salman Khan Fabio Cuzzolin Thomas Lukasiewicz AI4TS 76 33 0 04 Oct 2022
Hierarchical I3D for Sign Spotting Ryan Wong Necati Cihan Camgöz Richard Bowden 37 7 0 03 Oct 2022
Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings Zhihuan Kuang Shi Zong Jianbing Zhang Jiajun Chen Hongfu Liu 35 4 0 02 Oct 2022
Combining Efficient and Precise Sign Language Recognition: Good pose estimation library is all you need Matyáš Boháček Zhuo Cao M. Hrúz 24 0 0 30 Sep 2022
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos Anil Batra Shreyank N. Gowda Frank Keller Laura Sevilla-Lara 49 5 0 30 Sep 2022
Learning State-Aware Visual Representations from Audible Interactions Himangi Mittal Pedro Morgado Unnat Jain Abhinav Gupta 78 23 0 27 Sep 2022
EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations Ahmad Darkhalil Dandan Shan Bin Zhu Jian Ma Amlan Kar Richard E. L. Higgins Sanja Fidler David Fouhey Dima Damen VOS 57 98 0 26 Sep 2022
Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding Erica K. Shimomoto Edison Marrese-Taylor Hiroya Takamura Ichiro Kobayashi Hideki Nakayama Yusuke Miyao 27 7 0 26 Sep 2022
Hand Hygiene Assessment via Joint Step Segmentation and Key Action Scorer Chenglong Li Qiwen Zhu Tubiao Liu Jin Tang Yu Su 54 1 0 25 Sep 2022
Global Semantic Descriptors for Zero-Shot Action Recognition Valter Estevam Rayson Laroca Hélio Pedrini David Menotti 59 3 0 24 Sep 2022
Leveraging Self-Supervised Training for Unintentional Action Recognition Enea Duka Anna Kukleva Bernt Schiele 43 1 0 23 Sep 2022
Weakly Supervised Two-Stage Training Scheme for Deep Video Fight Detection Model Zhenting Qi Ruike Zhu Zheyu Fu Wenhao Chai Volodymyr V. Kindratenko 27 10 0 23 Sep 2022
FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video Classification P. Jin Lichao Mou Yuansheng Hua Gui-Song Xia Xiao Xiang Zhu AI4TS 32 8 0 22 Sep 2022
Heterogeneous Recurrent Spiking Neural Network for Spatio-Temporal Classification Biswadeep Chakraborty Saibal Mukhopadhyay 53 20 0 22 Sep 2022
Tab2vox: CNN-Based Multivariate Multilevel Demand Forecasting Framework by Tabular-To-Voxel Image Conversion Euna Lee Myungwoo Nam Hongchul Lee 28 5 0 21 Sep 2022
An Overview of Violence Detection Techniques: Current Challenges and Future Directions N. Mumtaz N. Ejaz Shabana Habib Syed Muhammad Mohsin Prayag Tiwari Shahab S. Band Neeraj Kumar 54 28 0 21 Sep 2022
FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human Interaction Analysis Zihui Guo Yonghong Hou Pichao Wang Zhimin Gao Mingliang Xu Wanqing Li 39 3 0 21 Sep 2022
Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention R Gnana Praveen Eric Granger P. Cardinal CVBM 56 31 0 19 Sep 2022
MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain Francesco Ragusa Antonino Furnari G. Farinella EgoV 51 24 0 19 Sep 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 87 7 0 14 Sep 2022
Real-world Video Anomaly Detection by Extracting Salient Features in Videos Yudai Watanabe Makoto Okabe Y. Harada Naoji Kashima AI4TS 21 5 0 14 Sep 2022
Predicting the Next Action by Modeling the Abstract Goal Debaditya Roy Basura Fernando EgoV 45 18 0 12 Sep 2022
MAiVAR: Multimodal Audio-Image and Video Action Recognizer Muhammad Bilal Shaikh Douglas Chai S. Islam Naveed Akhtar 40 5 0 11 Sep 2022
Context Recovery and Knowledge Retrieval: A Novel Two-Stream Framework for Video Anomaly Detection Congqi Cao Yue Lu Yanning Zhang 62 22 0 07 Sep 2022
Spatio-Temporal Action Detection Under Large Motion Gurkirt Singh Vasileios Choutas Suman Saha Feng Yu Luc Van Gool 40 12 0 06 Sep 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-Jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 37 64 0 04 Sep 2022
A Novel Self-Knowledge Distillation Approach with Siamese Representation Learning for Action Recognition Duc-Quang Vu T. Phung Jia-Ching Wang 32 9 0 03 Sep 2022
Topic Detection in Continuous Sign Language Videos Álvaro Budria Laia Tarrés Gerard I. Gállego Francesc Moreno-Noguer Jordi Torres Xavier Giró-i-Nieto SLR VLM 62 1 0 01 Sep 2022
Unified Fully and Timestamp Supervised Temporal Action Segmentation via Sequence to Sequence Translation Nadine Behrmann S. Golestaneh Zico Kolter Juergen Gall M. Noroozi 27 74 0 01 Sep 2022
Active Learning with Effective Scoring Functions for Semi-Supervised Temporal Action Localization Ding Li Xuebing Yang Yongqiang Tang Chenyang Zhang Wensheng Zhang 40 4 0 31 Aug 2022
A Circular Window-based Cascade Transformer for Online Action Detection Shuyuan Cao Weihua Luo Bairui Wang Wei Emma Zhang Lin Ma 59 6 0 30 Aug 2022
Survey: Exploiting Data Redundancy for Optimization of Deep Learning Jou-An Chen Wei Niu Bin Ren Yanzhi Wang Xipeng Shen 28 24 0 29 Aug 2022
Actor-identified Spatiotemporal Action Detection -- Detecting Who Is Doing What in Videos Fan Yang Norimichi Ukita S. Sakti Satoshi Nakamura 24 0 0 27 Aug 2022
Partially Relevant Video Retrieval Jianfeng Dong Xianke Chen Minsong Zhang Xun Yang Shujie Chen Xirong Li Xun Wang 29 40 0 26 Aug 2022
Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling Rui Wang Zuxuan Wu Dongdong Chen Yinpeng Chen Xiyang Dai Mengchen Liu Luowei Zhou Lu Yuan Yu-Gang Jiang ViT 52 4 0 25 Aug 2022
Lane Change Classification and Prediction with Action Recognition Networks Kai-Bin Liang Jun Wang A. Bhalerao 24 2 0 24 Aug 2022
ICANet: A Method of Short Video Emotion Recognition Driven by Multimodal Data Xuecheng Wu Mengmeng Tian Lanhang Zhai 33 3 0 24 Aug 2022
Modality Mixer for Multi-modal Action Recognition Sumin Lee Sangmin Woo Yeonju Park Muhammad Adi Nugroho Changick Kim 31 10 0 24 Aug 2022
Towards cumulative race time regression in sports: I3D ConvNet transfer learning in ultra-distance running events David Freire-Obregón J. Lorenzo-Navarro Oliverio J. Santana Daniel Hernández-Sosa Modesto Castrillón-Santana 3DH 31 7 0 23 Aug 2022
Efficient Attention-free Video Shift Transformers Adrian Bulat Brais Martínez Georgios Tzimiropoulos ViT 34 1 0 23 Aug 2022
Identifying Auxiliary or Adversarial Tasks Using Necessary Condition Analysis for Adversarial Multi-task Video Understanding Stephen Su Sam Kwong Qingyu Zhao De-An Huang Juan Carlos Niebles Ehsan Adeli 38 0 0 22 Aug 2022
Review on Action Recognition for Accident Detection in Smart City Transportation Systems Victor A. Adewopo Nelly Elsayed Zag ElSayed Murat Ozer Ahmed Abdelgawad Magdy A. Bayoumi 47 41 0 20 Aug 2022
ModSelect: Automatic Modality Selection for Synthetic-to-Real Domain Generalization Zdravko Marinov Alina Roitberg David Schneider Rainer Stiefelhagen 35 4 0 19 Aug 2022