Convolutional Two-Stream Network Fusion for Video Action Recognition

22 April 2016

Papers citing "Convolutional Two-Stream Network Fusion for Video Action Recognition"

50 / 853 papers shown

Title
Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation Amirhossein Dadashzadeh Parsa Esmati Majid Mirmehdi TTA VLM 57 0 0 15 Apr 2025
A Decade of Deep Learning for Remote Sensing Spatiotemporal Fusion: Advances, Challenges, and Opportunities Enzhe Sun Yongchuan Cui Peng Liu Jining Yan 42 1 0 01 Apr 2025
Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition Shristi Das Biswas Efstathia Soufleri Arani Roy Kaushik Roy 59 0 0 17 Mar 2025
Domain Generalization for Improved Human Activity Recognition in Office Space Videos Using Adaptive Pre-processing Partho Ghosh Raisa Bentay Hossain Mohammad Zunaed Taufiq Hasan 58 0 0 16 Mar 2025
Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information Edoardo Bianchi Oswald Lanz 3DH 68 1 0 06 Mar 2025
Exploring Simple Siamese Network for High-Resolution Video Quality Assessment Guotao Shen Ziheng Yan Xin Jin Longhai Wu Jie Chen Ilhyun Cho Cheul-hee Hahm 35 0 0 04 Mar 2025
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis Amir Hosein Fadaei M. Dehaqani 45 0 0 11 Feb 2025
Designing Semi-Structured Pruning of Graph Convolutional Networks for Skeleton-based Recognition Hichem Sahbi CVBM 77 0 0 16 Dec 2024
Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition Yulin Wang Haoji Zhang Yang Yue Shiji Song Chao Deng Junlan Feng Gao Huang 79 3 0 15 Dec 2024
Learning Visual Abstract Reasoning through Dual-Stream Networks Kai Zhao Chang Xu Bailu Si 112 3 0 29 Nov 2024
An End-to-End Two-Stream Network Based on RGB Flow and Representation Flow for Human Action Recognition Song-Jiang Lai Tsun-hin Cheung Ka-Chun Fung Tian-Shan Liu K. Lam 61 0 0 27 Nov 2024
A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning Luis Vilaca Yi Yu Paula Vinan 75 0 0 24 Nov 2024
When Spatial meets Temporal in Action Recognition H. Chen Lei Wang Yuxiao Chen Tom Gedeon Piotr Koniusz 99 2 0 22 Nov 2024
Preventing Model Collapse in Deep Canonical Correlation Analysis by Noise Regularization Junlin He Jinxiao Du Susu Xu Wei Ma 26 0 0 01 Nov 2024
Random Token Fusion for Multi-View Medical Diagnosis Jingyu Guo Christos Matsoukas Fredrik Strand Kevin Smith MedIm 29 0 0 21 Oct 2024
LocoMotion: Learning Motion-Focused Video-Language Representations Hazel Doughty Fida Mohammad Thoker Cees G. M. Snoek 43 2 0 15 Oct 2024
Understanding Human Activity with Uncertainty Measure for Novelty in Graph Convolutional Networks Hao Xing Darius Burschka 31 1 0 10 Oct 2024
Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network Hao Xing Darius Burschka 42 11 0 10 Oct 2024
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models Haibo Wang Zhiyang Xu Yu Cheng Shizhe Diao Yufan Zhou Yixin Cao Qifan Wang Weifeng Ge Lifu Huang 24 21 0 04 Oct 2024
Loose Social-Interaction Recognition in Real-world Therapy Scenarios Abid Ali Rui Dai Ashish Marisetty Guillaume Astruc Monique Thonnat J. Odobez Susanne Thümmler Francois Bremond 36 1 0 30 Sep 2024
Flatten: Video Action Recognition is an Image Classification task Junlin Chen Chengcheng Xu Yangfan Xu Jian Yang Jun Yu Li Zhiping Shi 39 1 0 17 Aug 2024
Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach Shizhou Zhang Wenlong Luo De-Chun Cheng Qingchun Yang Lingyan Ran Yinghui Xing Yanning Zhang VOS 36 3 0 14 Aug 2024
A Methodological and Structural Review of Hand Gesture Recognition Across Diverse Data Modalities Jungpil Shin Abu Saleh Musa Miah Md. Humaun Kabir M. Rahim Abdullah Al Shiam 39 12 0 10 Aug 2024
Improved Esophageal Varices Assessment from Non-Contrast CT Scans Chunli Li Xiaoming Zhang Yuan Gao Xiaoli Yin Le Lu Ling Zhang Ke Yan Yu Shi 51 0 0 18 Jul 2024
Rethinking the Architecture Design for Efficient Generic Event Boundary Detection Ziwei Zheng Zechuan Zhang Yulin Wang Shiji Song Gao Huang Le Yang 35 2 0 17 Jul 2024
Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding Minghui Wu Chenxu Zhao Anyang Su Donglin Di Tianyu Fu ... Min He Ya Gao Meng Ma Kun Yan Ping Wang 32 0 0 11 Jul 2024
Learning to Adapt Category Consistent Meta-Feature of CLIP for Few-Shot Classification Jiaying Shi Xuetong Xue Shenghui Xu VLM 37 0 0 08 Jul 2024
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment Hao Fei Shengqiong Wu Meishan Zhang Hao Fei Tat-Seng Chua Shuicheng Yan AI4TS 47 40 0 27 Jun 2024
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 56 10 1 09 Jun 2024
RNNs, CNNs and Transformers in Human Action Recognition: A Survey and a Hybrid Model Khaled Alomar Halil Ibrahim Aysel Xiaohao Cai MedIm ViT 43 7 0 02 Jun 2024
Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception Shuangpeng Han Ziyu Wang Mengmi Zhang 36 0 0 26 May 2024
From CNNs to Transformers in Multimodal Human Action Recognition: A Survey Muhammad Bilal Shaikh Syed Mohammed Shamsul Islam Douglas Chai Naveed Akhtar 35 9 0 22 May 2024
Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding Rong Gao Xin Liu Bohao Xing Zitong Yu Björn W. Schuller Heikki Kälviäinen 57 3 0 21 May 2024
A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection Matthew Korban Peter Youngs Scott T. Acton ViT 29 6 0 13 May 2024
Deep video representation learning: a survey Elham Ravanbakhsh Yongqing Liang J. Ramanujam Xin Li 49 3 0 10 May 2024
MERIT: Multi-view evidential learning for reliable and interpretable liver fibrosis staging Yuanye Liu Zheyao Gao Nannan Shi Fuping Wu Yuxin Shi Qingchao Chen Xiahai Zhuang 33 2 0 05 May 2024
Frequency-Guided Multi-Level Human Action Anomaly Detection with Normalizing Flows Shun Maeda Chunzhi Gu Junzhou Yu Shogo Tokai Shangce Gao Chao Zhang 24 0 0 26 Apr 2024
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim MLLM 83 89 0 08 Apr 2024
Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation Swati Jindal Mohit Yadav Roberto Manduchi 34 5 0 08 Apr 2024
Hypergraph-based Multi-View Action Recognition using Event Cameras Yue Gao Jiaxuan Lu Siqi Li Yipeng Li Shaoyi Du 63 12 0 28 Mar 2024
OmniVid: A Generative Framework for Universal Video Understanding Junke Wang Dongdong Chen Chong Luo Bo He Lu Yuan Zuxuan Wu Yu-Gang Jiang VLM VGen 71 14 0 26 Mar 2024
Emotion Recognition from the perspective of Activity Recognition Savinay Nagendra Prapti Panigrahi 26 2 0 24 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul Chilimbi VLM AI4TS 58 4 0 21 Mar 2024
Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition Sumin Lee Yooseung Wang Sangmin Woo Changick Kim 29 0 0 21 Mar 2024
Towards Neuro-Symbolic Video Understanding Minkyu Choi Harsh Goel Mohammad Omama Yunhao Yang Sahil Shah Sandeep P. Chinchali 40 9 0 16 Mar 2024
MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations Hanlei Zhang Xin Wang Hua Xu Qianrui Zhou Kai Gao Jianhua Su jinyue Zhao Wenrui Li Yanting Chen 45 2 0 16 Mar 2024
Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained Models for Spatiotemporal Modeling W. G. C. Bandara Vishal M. Patel VPVLM VLM 36 1 0 11 Mar 2024
LLMs Meet Long Video: Advancing Long Video Comprehension with An Interactive Visual Adapter in LLMs Yunxin Li Xinyu Chen Baotain Hu Min-Ling Zhang 45 3 0 21 Feb 2024
Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data Shufan Li Harkanwar Singh Aditya Grover Mamba 95 57 0 08 Feb 2024
Meet JEANIE: a Similarity Measure for 3D Skeleton Sequences via Temporal-Viewpoint Alignment Lei Wang Jun Liu Liang Zheng Tom Gedeon Piotr Koniusz 33 9 0 07 Feb 2024