SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 655 papers shown

Title
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin 41 114 0 16 Jul 2022
1st Place Solution to the EPIC-Kitchens Action Anticipation Challenge 2022 Zeyu Jiang Changxing Ding EgoV 24 1 0 10 Jul 2022
Beyond Transfer Learning: Co-finetuning for Action Localisation Anurag Arnab Xuehan Xiong A. Gritsenko Rob Romijnders Josip Djolonga Mostafa Dehghani Chen Sun Mario Lucic Cordelia Schmid 38 8 0 08 Jul 2022
VidConv: A modernized 2D ConvNet for Efficient Video Recognition Chuong H. Nguyen Su Huynh Vinh Nguyen Ngoc-Khanh Nguyen ViT 27 3 0 08 Jul 2022
STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding Zihang Lin Chaolei Tan Jianfang Hu Zhi Jin Tiancai Ye Weihao Zheng 32 3 0 06 Jul 2022
MVP: Robust Multi-View Practice for Driving Action Localization Jingjie Shang Kunchang Li Kaibin Tian Haisheng Su Yangguang Li 39 3 0 05 Jul 2022
Large-scale Robustness Analysis of Video Action Recognition Models Madeline Chantry Schiappa Naman Biyani Prudvi Kamtam Shruti Vyas Hamid Palangi Vibhav Vineet Yogesh S Rawat AAML 39 24 0 04 Jul 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 105 93 0 04 Jul 2022
Video + CLIP Baseline for Ego4D Long-term Action Anticipation Srijan Das Michael S. Ryoo VLM CLIP 26 17 0 01 Jul 2022
ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022 Na Liu Xiaohan Wang Xiaobo Li Yi Yang Yueting Zhuang 39 18 0 01 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 17 2 0 01 Jul 2022
Programmatic Concept Learning for Human Motion Description and Synthesis Sumith Kulal Jiayuan Mao A. Aiken Jiajun Wu 33 7 0 27 Jun 2022
VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning Kashu Yamazaki Sang Truong Khoa T. Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le VLM CoGe 13 25 0 26 Jun 2022
One-stage Action Detection Transformer Lijun Li Lian Zhuo Bangyin Zhang ViT 34 0 0 21 Jun 2022
Context-aware Proposal Network for Temporal Action Detection Xiang Wang Han Zhang Shiwei Zhang Changxin Gao Yuanjie Shao Nong Sang 22 2 0 18 Jun 2022
RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks Shanghua Gao Zhong-Yu Li Qi Han Ming-Ming Cheng Liang Wang 39 34 0 14 Jun 2022
MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing Zhaofan Qiu Ting Yao Chong-Wah Ngo Tao Mei ViT 39 15 0 13 Jun 2022
Precise Affordance Annotation for Egocentric Action Video Datasets Zecheng Yu Yifei Huang Ryosuke Furuta Takuma Yagi Yusuke Goutsu Yoichi Sato EgoV 33 0 0 11 Jun 2022
Generating Long Videos of Dynamic Scenes Tim Brooks Janne Hellsten M. Aittala Ting-Chun Wang Timo Aila J. Lehtinen Xuan Li Alexei A. Efros Tero Karras SyDa 9 101 0 07 Jun 2022
A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying Static vs. Dynamic Information M. Kowal Mennatullah Siam Md. Amirul Islam Neil D. B. Bruce Richard P. Wildes Konstantinos G. Derpanis 26 25 0 06 Jun 2022
Revisiting the "Video" in Video-Language Understanding S. Buch Cristobal Eyzaguirre Adrien Gaidon Jiajun Wu L. Fei-Fei Juan Carlos Niebles 41 158 0 03 Jun 2022
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Guohao Li Wei Liu Mike Zheng Shou VLM EgoV 46 190 0 03 Jun 2022
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications Fei Wu Qingzhong Wang Jian Bian Haoyi Xiong Ning Ding Feixiang Lu Junqing Cheng Dejing Dou AI4TS 39 53 0 02 Jun 2022
Unified Recurrence Modeling for Video Action Anticipation Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Simon See Oswald Lanz 23 8 0 02 Jun 2022
GraSens: A Gabor Residual Anti-aliasing Sensing Framework for Action Recognition using WiFi Yanling Hao Zhiyuan Shi Xidong Mu Yuanwei Liu 24 2 0 24 May 2022
Cross-Enhancement Transformer for Action Segmentation Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang ViT 56 23 0 19 May 2022
PYSKL: Towards Good Practices for Skeleton Action Recognition Haodong Duan Jiaqi Wang Kai-xiang Chen Dahua Lin VLM 33 137 0 19 May 2022
ETAD: Training Action Detection End to End on a Laptop Shuming Liu Mengmeng Xu Chen Zhao Xu Zhao Guohao Li 44 6 0 14 May 2022
Weakly-Supervised Action Detection Guided by Audio Narration Keren Ye Adriana Kovashka 38 0 0 12 May 2022
Recurrent Dynamic Embedding for Video Object Segmentation Mingxing Li Liucheng Hu Zhiwei Xiong Bang Zhang Pan Pan Dong Liu VOS 67 61 0 08 May 2022
An Empirical Study on Activity Recognition in Long Surgical Videos Zhuohong He A. Mottaghi Aidean Sharghi Muhammad Abdullah Jamal Omid Mohareri 36 12 0 05 May 2022
BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection Mingdong Yang Guo Chen Yin-Dong Zheng Tong Lu Limin Wang 46 45 0 05 May 2022
i-Code: An Integrative and Composable Multimodal Learning Framework Ziyi Yang Yuwei Fang Chenguang Zhu Reid Pryzant DongDong Chen ... Bin Xiao Yuanxun Lu Takuya Yoshioka Michael Zeng Xuedong Huang 40 45 0 03 May 2022
A Deep Learning based No-reference Quality Assessment Model for UGC Videos Wei Sun Xiongkuo Min Wei Lu Guangtao Zhai 35 159 0 29 Apr 2022
HuMMan: Multi-Modal 4D Human Dataset for Versatile Sensing and Modeling Zhongang Cai Daxuan Ren Ailing Zeng Zhengyu Lin Tao Yu ... Fangzhou Hong Mingyuan Zhang Chen Change Loy Lei Yang Ziwei Liu 3DH 39 101 0 28 Apr 2022
The Wisdom of Crowds: Temporal Progressive Attention for Early Action Prediction Alexandros Stergiou Dima Damen AI4TS EgoV EDL 22 7 0 28 Apr 2022
Human-Centered Prior-Guided and Task-Dependent Multi-Task Representation Learning for Action Recognition Pre-Training Guanhong Wang Ke Lu Yang Zhou Zhanhao He Gaoang Wang SSL 32 3 0 27 Apr 2022
Temporal Relevance Analysis for Video Action Models Quanfu Fan Donghyun Kim Chun-Fu Chen Chen Stan Sclaroff Kate Saenko Sarah Adel Bargal FAtt 33 0 0 25 Apr 2022
Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition Kazuki Omi Jun Kimata Toru Tamaki 28 7 0 15 Apr 2022
Calibrating Class Weights with Multi-Modal Information for Partial Video Domain Adaptation Xiyu Wang Yuecong Xu K. Mao Jianfei Yang 26 8 0 13 Apr 2022
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition C. Nwoye Deepak Alapatt Tong Yu Armine Vardazaryan Fangfang Xia ... Didier Mutter Pietro Mascagni B. Seeliger Cristians Gonzalez N. Padoy 25 50 0 10 Apr 2022
E^2TAD: An Energy-Efficient Tracking-based Action Detector Xin Hu Zhenyu Wu Haoyuan Miao Siqi Fan Taiyu Long ... Pengcheng Pi Yi Wu Zhou Ren Zhangyang Wang G. Hua 24 2 0 09 Apr 2022
Frequency Selective Augmentation for Video Representation Learning Jinhyung Kim Taeoh Kim Minho Shim Dongyoon Han Dongyoon Wee Junmo Kim AI4TS 54 3 0 08 Apr 2022
Continual Inference: A Library for Efficient Online Inference with Deep Neural Networks in PyTorch Lukas Hedegaard Alexandros Iosifidis BDL 3DV CLL 15 6 0 07 Apr 2022
Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu VLM 20 18 0 07 Apr 2022
Hierarchical Self-supervised Representation Learning for Movie Understanding Fanyi Xiao Kaustav Kundu Joseph Tighe Davide Modolo SSL 44 24 0 06 Apr 2022
An Empirical Study of End-to-End Temporal Action Detection Xiaolong Liu S. Bai Xiang Bai 27 58 0 06 Apr 2022
Long Movie Clip Classification with State-Space Video Models Md. Mohaiminul Islam Gedas Bertasius VLM 51 102 0 04 Apr 2022
TALLFormer: Temporal Action Localization with a Long-memory Transformer Feng Cheng Gedas Bertasius ViT 35 91 0 04 Apr 2022
ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition Jun Kimata Tomoya Nitta Toru Tamaki 43 10 0 01 Apr 2022