SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 601 papers shown

Title
SPKLIP: Aligning Spike Video Streams with Natural Language Yongchang Gao Meiling Jin Zhaofei Yu Tiejun Huang Guozhang Chen CLIP VLM 2 0 0 19 May 2025
Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model Wei Li Ming Hu Guoan Wang Lihao Liu Kaijin Zhou Junzhi Ning Xin Guo Zongyuan Ge Lixu Gu Junjun He 28 0 0 12 May 2025
DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer Ho-Joong Kim Y. E. Lee Jung-Ho Hong Seong-Whan Lee 47 0 0 09 May 2025
Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models Abram Schonfeldt Benjamin Maylor Xiaofang Chen Ronald Clark Aiden Doherty 68 0 0 06 May 2025
Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision Linhan Cao Wei Sun Kaiwei Zhang Yicong Peng Guangtao Zhai Xiongkuo Min 57 0 0 06 May 2025
Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study Tamim Ahmed Thanassis Rikakis 34 0 0 03 May 2025
Vehicular Communication Security: Multi-Channel and Multi-Factor Authentication Marco De Vincenzi Shri Kiran Srinivasan Chen Bo Calvin Zhang Manuel Garcia Shaozu Ding Chiara Bodei Ilaria Matteucci Dajiang Suo Dajiang Suo 53 0 0 01 May 2025
Beyond the Horizon: Decoupling UAVs Multi-View Action Recognition via Partial Order Transfer Wenxuan Liu Xian Zhong Zhuo Zhou Songlin Yang Chia-Wen Lin Alex Chichung Kot 32 0 0 29 Apr 2025
Advance Fake Video Detection via Vision Transformers Joy Battocchio S. Dell’Anna Andrea Montibeller Giulia Boato ViT VGen 41 0 0 29 Apr 2025
STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction Zhimin Liao Ping Wei Shuaijia Chen Haoxuan Wang Ziyang Ren 142 0 0 28 Apr 2025
Learning Streaming Video Representation via Multitask Training Yibin Yan Jilan Xu Shangzhe Di Yikun Liu Yudi Shi Qirui Chen Zeqian Li Yifei Huang Weidi Xie CLL 84 0 0 28 Apr 2025
ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding Yi-Xing Peng Q. Yang Yu-Ming Tang Shenghao Fu Kun-Yu Lin Xihan Wei Wei-Shi Zheng 45 0 0 25 Apr 2025
HierSum: A Global and Local Attention Mechanism for Video Summarization Apoorva Beedu Irfan Essa 128 0 0 25 Apr 2025
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback Minkyu Choi S P Sharan Harsh Goel Sahil Shah Sandeep Chinchali DiffM VGen 91 0 0 24 Apr 2025
NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and Results Xin Li Kun Yuan B. Li Fengbin Guan Yizhen Shao ... Guohua Zhang Z. Huang Y. Deng Qingmiao Jiang Lu Chen 61 8 0 17 Apr 2025
F $^3$ Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos Zhaoyu Liu Kan Jiang Murong Ma Zhé Hóu Yun Lin Jin Song Dong 37 0 0 11 Apr 2025
Post-processing for Fair Regression via Explainable SVD Zhiqun Zuo Ding Zhu Mohammad Mahdi Khalili 202 0 0 04 Apr 2025
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives Shuyu Li Shulei Ji Zihao Wang Songruoyao Wu Jiaxing Yu Kaipeng Zhang MGen VGen 73 1 0 01 Apr 2025
Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos Jiaheng Zhou Yanfeng Zhou Wei Fang Yuxing Tang Le Lu Ge Yang Mamba 241 0 0 26 Mar 2025
Action tube generation by person query matching for spatio-temporal action detection Kazuki Omi Jion Oshima Toru Tamaki 65 0 0 17 Mar 2025
A Large-Scale Study on Video Action Dataset Condensation Yang Chen Sheng Guo Bo Zheng Limin Wang DD 81 2 0 13 Mar 2025
Analysis of 3D Urticaceae Pollen Classification Using Deep Learning Models Tijs Konijn Imaan Bijl Lu Cao Fons Verbeek 53 0 0 10 Mar 2025
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning Baoqi Pei Yuanmin Huang Jilan Xu Guo Chen Yuping He ... Yali Wang Weidi Xie Yu Qiao Fei Wu Limin Wang 41 0 0 02 Mar 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 99 4 0 24 Feb 2025
Myna: Masking-Based Contrastive Learning of Musical Representations Ori Yonay Tracy Hammond Tianbao Yang AAML 61 0 0 20 Feb 2025
SurgPLAN++: Universal Surgical Phase Localization Network for Online and Offline Inference Zhen Chen Xingjian Luo Jinlin Wu Long Bai Zhen Lei Hongliang Ren Sebastien Ourselin Hongbin Liu 66 0 0 17 Feb 2025
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis Amir Hosein Fadaei M. Dehaqani 45 0 0 11 Feb 2025
Conformal Predictions for Human Action Recognition with Vision-Language Models Bary Tim Fuchs Clément Macq Benoît VLM 51 0 0 10 Feb 2025
An object detection approach for lane change and overtake detection from motion profiles Andrea Benericetti Niccolò Bellaccini Henrique Piñeiro Monteagudo Matteo Simoncini Francesco Sambo 73 0 0 06 Feb 2025
LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin Fan Zhou 42 1 0 18 Jan 2025
V-Trans4Style: Visual Transition Recommendation for Video Production Style Adaptation P. Guhan Tsung-Wei Huang Guan-Ming Su Subhadra Gopalakrishnan Dinesh Manocha VGen 63 0 0 14 Jan 2025
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames Pinelopi Papalampidi Skanda Koppula Shreya Pathak Justin T Chiu Joseph Heyward Viorica Patraucean Jiajun Shen Antoine Miech Andrew Zisserman Aida Nematzdeh VLM 69 24 0 31 Dec 2024
Interacted Object Grounding in Spatio-Temporal Human-Object Interactions Xiaoyang Liu Boran Wen Xinpeng Liu Zizheng Zhou Hongwei Fan Cewu Lu Lizhuang Ma Yulong Chen Yong Li 56 2 0 27 Dec 2024
Do Language Models Understand Time? Xi Ding Lei Wang 184 0 0 18 Dec 2024
Progress-Aware Video Frame Captioning Zihui Xue Joungbin An Xitong Yang Kristen Grauman 100 1 0 03 Dec 2024
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 122 1 0 25 Nov 2024
Principles of Visual Tokens for Efficient Video Understanding Xinyue Hao Gen Li Shreyank N. Gowda Robert B Fisher Jonathan Huang Anurag Arnab Laura Sevilla-Lara 98 0 0 20 Nov 2024
Situational Scene Graph for Structured Human-centric Situation Understanding Chinthani Sugandhika Chen Li Deepu Rajan Basura Fernando 203 1 0 30 Oct 2024
Secure Video Quality Assessment Resisting Adversarial Attacks Ao Zhang Yu Ran Weixuan Tang Yuan-Gen Wang Qingxiao Guan Chunsheng Yang AAML 34 0 0 09 Oct 2024
Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations Minoh Jeong Min Namgung Zae Myung Kim Dongyeop Kang Yao-Yi Chiang Alfred Hero 25 0 0 02 Oct 2024
Spacewalker: Traversing Representation Spaces for Fast Interactive Exploration and Annotation of Unstructured Data Lukas Heine Fabian Horst Jana Fragemann Gijs Luijten M. Balzer Jan Egger F. Bahnsen M. Sarfraz Jens Kleesiek 30 0 0 25 Sep 2024
Ctrl-GenAug: Controllable Generative Augmentation for Medical Sequence Classification Xinrui Zhou Yuhao Huang Haoran Dou Shijing Chen Ao Chang ... Jie Jessie Ren Ruobing Huang Jun Cheng Wufeng Xue Dong Ni MedIm 180 0 0 25 Sep 2024
Introducing Gating and Context into Temporal Action Detection Aglind Reka Diana Laura Borza Dominick Reilly Michal Balazia Francois Bremond 30 0 0 06 Sep 2024
Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment Keyne Oei Amr Gomaa Anna Maria Feit João Belo 33 0 0 06 Sep 2024
Towards Student Actions in Classroom Scenes: New Dataset and Baseline Zhuolin Tan Chenqiang Gao Anyong Qin Ruixin Chen Tiecheng Song Feng Yang Deyu Meng 29 0 0 02 Sep 2024
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition Ahmed Abdelkawy Asem A. Ali Asem Ali 3DPC 31 0 0 10 Aug 2024
Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection Taichi Nishimura Shota Nakada Hokuto Munakata Tatsuya Komatsu VLM 34 1 0 06 Aug 2024
RICA2: Rubric-Informed, Calibrated Assessment of Actions Abrar Majeedi Viswanatha Reddy Gajjala Satya Sai Srinath Namburi Gnvv Yin Li CML 31 2 0 04 Aug 2024
Faster Diffusion Action Segmentation Shuai Wang Shunli Wang Mingcheng Li Dingkang Yang Haopeng Kuang Ziyun Qian Lihua Zhang 42 0 0 04 Aug 2024
MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection Xiangbo Gao A. Kanu-Asiegbu Xiaoxiao Du Mamba 38 0 0 02 Aug 2024