Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

22 May 2017

Papers citing "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset"

50 / 1,570 papers shown

Title
Slow Motion Matters: A Slow Motion Enhanced Network for Weakly Supervised Temporal Action Localization Weiqi Sun Rui Su Qian Yu Dong Xu 36 20 0 21 Nov 2022
MagicVideo: Efficient Video Generation With Latent Diffusion Models Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng DiffM VGen 48 375 0 20 Nov 2022
Look More but Care Less in Video Recognition Yitian Zhang Yue Bai Haiquan Wang Yi Xu Yun Fu 34 9 0 18 Nov 2022
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang Limin Wang Yu Qiao ViT 37 107 0 17 Nov 2022
Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey Yuecong Xu Haozhi Cao Zhenghua Chen Xiaoli Li Lihua Xie Jianfei Yang 29 14 0 17 Nov 2022
Language-Assisted Deep Learning for Autistic Behaviors Recognition Andong Deng Taojiannan Yang Chong Chen Qian Chen Leslie C. Neely Sakiko Oyama 31 8 0 17 Nov 2022
A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion Recognition Benjia Zhou Pichao Wang Jun Wan Yan-Ni Liang Fan Wang 42 19 0 16 Nov 2022
Token Turing Machines Michael S. Ryoo K. Gopalakrishnan Kumara Kahatapitiya Ted Xiao Kanishka Rao Austin Stone Yao Lu Julian Ibarz Anurag Arnab 29 21 0 16 Nov 2022
Weakly-supervised Fingerspelling Recognition in British Sign Language Videos Prajwal K R Hannah Bull Liliane Momeni Samuel Albanie Gül Varol Andrew Zisserman 34 14 0 16 Nov 2022
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022 Yin-Dong Zheng Guo Chen Jiahao Wang Tong Lu Liming Wang 50 0 0 16 Nov 2022
Dynamic Temporal Filtering in Video Models Fuchen Long Zhaofan Qiu Yingwei Pan Ting Yao Chong-Wah Ngo Tao Mei AI4TS 49 18 0 15 Nov 2022
Grafting Pre-trained Models for Multimodal Headline Generation Lingfeng Qiao Chen Wu Ye Liu Haoyuan Peng Di Yin Bo Ren 57 5 0 14 Nov 2022
MARLIN: Masked Autoencoder for facial video Representation LearnINg Zhixi Cai Shreya Ghosh Kalin Stefanov Abhinav Dhall Jianfei Cai Hamid Rezatofighi Reza Haffari Munawar Hayat ViT CVBM 41 60 0 12 Nov 2022
SSGVS: Semantic Scene Graph-to-Video Synthesis Yuren Cong Jinhui Yi Bodo Rosenhahn M. Yang 69 7 0 11 Nov 2022
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks Hyolim Kang Hanjung Kim Joungbin An Minsu Cho Seon Joo Kim 43 5 0 11 Nov 2022
SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity Recognition Santosh Kumar Yadav Esha Pahwa Achleshwar Luthra K. Tiwari Hari Mohan Pandey Peter Corcoran 23 4 0 10 Nov 2022
Extending Temporal Data Augmentation for Video Action Recognition Artjoms Gorpincenko Michal Mackiewicz ViT 52 4 0 09 Nov 2022
Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity Recognition Hyeongju Choi Apoorva Beedu H. Haresamudram Irfan Essa 29 5 0 08 Nov 2022
Eat-Radar: Continuous Fine-Grained Intake Gesture Detection Using FMCW Radar and 3D Temporal Convolutional Network with Attention C. Wang T. S. Kumar W. de Raedt Guido Camps Hans Hallez Bart Vanrumste 24 12 0 08 Nov 2022
SimOn: A Simple Framework for Online Temporal Action Localization Tuan N. Tang Jungin Park Kwonyoung Kim Kwanghoon Sohn 43 3 0 08 Nov 2022
Bringing Online Egocentric Action Recognition into the wild Gabriele Goletto M. Planamente Barbara Caputo Giuseppe Averta EgoV 24 3 0 06 Nov 2022
Video Event Extraction via Tracking Visual States of Arguments Guang Yang Manling Li Jiajie Zhang Xudong Lin Shih-Fu Chang Heng Ji 37 9 0 03 Nov 2022
Two-Stream Network for Sign Language Recognition and Translation Yutong Chen Ronglai Zuo Fangyun Wei Yu-Huan Wu Shujie Liu Brian Mak SLR 50 120 0 02 Nov 2022
Distill and Collect for Semi-Supervised Temporal Action Segmentation Sovan Biswas A. Rhodes R. Manuvinakurike G. Raffa R. Beckwith 55 0 0 02 Nov 2022
Autoregressive GAN for Semantic Unconditional Head Motion Generation Louis Airale Xavier Alameda-Pineda Stéphane Lathuilière Dominique Vaufreydaz 38 3 0 02 Nov 2022
No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration Jose Vargas-Quiros Laura Cabrera-Quiros Hayley Hung 29 1 0 01 Nov 2022
Understanding Acoustic Patterns of Human Teachers Demonstrating Manipulation Tasks to Robots Akanksha Saran K. Desai M. L. Chang Rudolf Lioutikov A. Thomaz S. Niekum 30 3 0 01 Nov 2022
BOREx: Bayesian-Optimization--Based Refinement of Saliency Map for Image- and Video-Classification Models Atsushi Kikuchi Kotaro Uchida Masaki Waga Kohei Suenaga FAtt 45 1 0 31 Oct 2022
Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action Recognition Lei Wang Piotr Koniusz 80 28 0 30 Oct 2022
Unsupervised Audio-Visual Lecture Segmentation Darshan Singh Anchit Gupta C. V. Jawahar Makarand Tapaswi VOS 29 4 0 29 Oct 2022
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention Xubo Liu Qiushi Huang Xinhao Mei Haohe Liu Qiuqiang Kong ... Yu Zhang Lilian H. Y. Tang Mark D. Plumbley Volkan Kilicc Wenwu Wang 74 18 0 28 Oct 2022
Improving the Modality Representation with Multi-View Contrastive Learning for Multimodal Sentiment Analysis Peipei Liu Xin Zheng Hong Li Jie Liu Yimo Ren Hongsong Zhu Limin Sun AI4TS 45 3 0 28 Oct 2022
Visual Answer Localization with Cross-modal Mutual Knowledge Transfer Yixuan Weng Bin Li 41 6 0 26 Oct 2022
Clinically-Inspired Multi-Agent Transformers for Disease Trajectory Forecasting from Multimodal Data Huy Hoang Nguyen Matthew B. Blaschko S. Saarakkala A. Tiulpin MedIm AI4CE 53 15 0 25 Oct 2022
Adversarial Domain Adaptation for Action Recognition Around the Clock Anwaar Ulhaq 34 3 0 25 Oct 2022
GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction Samrudhdhi B. Rangrej Kevin J. Liang Tal Hassner James J. Clark 38 3 0 24 Oct 2022
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation S. Dey Abhilash Pal Cyrine Chaabani Oscar Koller SLR 40 5 0 24 Oct 2022
Holistic Interaction Transformer Network for Action Detection Gueter Josmy Faure Min-Hung Chen S. Lai 42 37 0 23 Oct 2022
Baby Physical Safety Monitoring in Smart Home Using Action Recognition System Victor A. Adewopo Nelly Elsayed Kelly Anderson 33 6 0 22 Oct 2022
Learning a Grammar Inducer from Massive Uncurated Instructional Videos Songyang Zhang Linfeng Song Lifeng Jin Haitao Mi Kun Xu Dong Yu Jiebo Luo 67 5 0 22 Oct 2022
Rethinking Learning Approaches for Long-Term Action Anticipation Megha Nawhal Akash Abdu Jyothi Greg Mori AI4TS 39 27 0 20 Oct 2022
Solving Reasoning Tasks with a Slot Transformer Ryan Faulkner Daniel Zoran LRM 31 1 0 20 Oct 2022
Transformer-based Action recognition in hand-object interacting scenarios Hoseong Cho Seungryul Baek EgoV 42 2 0 20 Oct 2022
MovieCLIP: Visual Scene Recognition in Movies Digbalay Bose Rajat Hebbar Krishna Somandepalli Haoyang Zhang Huayu Chen K. Cole-McLaughlin Haoran Wang Shrikanth Narayanan CLIP 39 21 0 20 Oct 2022
Grounded Video Situation Recognition Zeeshan Khan C. V. Jawahar Makarand Tapaswi 42 13 0 19 Oct 2022
VTC: Improving Video-Text Retrieval with User Comments Laura Hanu James Thewlis Yuki M. Asano Christian Rupprecht VGen 58 7 0 19 Oct 2022
Temporal Action Segmentation: An Analysis of Modern Techniques Guodong Ding Fadime Sener Angela Yao 70 77 0 19 Oct 2022
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline Na Li 34 0 0 15 Oct 2022
S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces Eric N. D. Nguyen Karan Goel Albert Gu Gordon W. Downs Preey Shah Tri Dao S. Baccus Christopher Ré VLM 27 39 0 12 Oct 2022
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning Yuchong Sun Hongwei Xue Ruihua Song Bei Liu Huan Yang Jianlong Fu AI4TS VLM 25 68 0 12 Oct 2022