Title
Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion Pooya Janani Amirabolfazl Suratgar Afshin Taghvaeipour 19 2 0 04 Aug 2024
Text-Guided Video Masked Autoencoder D. Fan Jue Wang Shuai Liao Zhikang Zhang Vimal Bhat Xinyu Li VGen 36 3 0 01 Aug 2024
How Effective are Self-Supervised Models for Contact Identification in Videos Omri Herscovici Limalka Sadith Liel David Daniel Harari Muhammad Haris Khan 27 0 0 01 Aug 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 49 5 0 31 Jul 2024
UNQA: Unified No-Reference Quality Assessment for Audio, Image, Video, and Audio-Visual Content Yuhang Cao Xiongkuo Min Yixuan Gao Wei Sun Weisi Lin Guangtao Zhai 51 2 0 29 Jul 2024
Classification Matters: Improving Video Action Detection with Class-Specific Attention Jinsung Lee Taeoh Kim Inwoong Lee Minho Shim Dongyoon Wee Minsu Cho Suha Kwak 54 0 0 29 Jul 2024
CardioSyntax: end-to-end SYNTAX score prediction -- dataset, benchmark and method Alexander Ponomarchuk Ivan Kruzhilov Galina Zubkova Artem Shadrin Ruslan Utegenov Ivan Bessonov Pavel Blinov 40 0 0 29 Jul 2024
Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph Zheng Li Xinle Chang Yueran Li Jingyong Su 48 3 0 28 Jul 2024
OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos Debidatta Dwibedi Y. Aytar Jonathan Tompson Andrew Zisserman 34 2 0 24 Jul 2024
Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis? Habib Hajimolahoseini Walid Ahmed Austin Wen Yang Liu 29 0 0 23 Jul 2024
Causal Understanding For Video Question Answering Bhanu Prakash Reddy Guda Tanmay Kulkarni Adithya Sampath Swarnashree Mysore Sathyendra CML 54 0 0 23 Jul 2024
SIGMA:Sinkhorn-Guided Masked Video Modeling Mohammadreza Salehi Michael Dorkenwald Fida Mohammad Thoker E. Gavves Cees G. M. Snoek Yuki M. Asano 55 3 0 22 Jul 2024
Local All-Pair Correspondence for Point Tracking Seokju Cho Jiahui Huang Jisu Nam Honggyu An Seungryong Kim Joon-Young Lee 34 26 0 22 Jul 2024
Decoupled Prompt-Adapter Tuning for Continual Activity Recognition Di Fu Thanh Vinh Vo Haozhe Ma Tze-Yun Leong 35 0 0 20 Jul 2024
A Comprehensive Review of Few-shot Action Recognition Yuyang Wanyan Xiaoshan Yang Weiming Dong Changsheng Xu VLM 80 3 0 20 Jul 2024
Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data Wufei Ma Kai Li Zhongshi Jiang Moustafa Meshry Qihao Liu Huiyu Wang Christian Hane Alan Yuille VGen 42 1 0 18 Jul 2024
Towards AI-Powered Video Assistant Referee System (VARS) for Association Football Jan Held A. Cioppa Silvio Giancola Abdullah Hamdi Christel Devue Guohao Li Marc Van Droogenbroeck 45 4 0 17 Jul 2024
Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition Jiahang Zhang Lilang Lin Jiaying Liu 36 5 0 17 Jul 2024
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity Santiago Pascual Chunghsin Yeh Ioannis Tsiamas Joan Serrà DiffM VGen 47 15 0 15 Jul 2024
Diagnosing and Re-learning for Balanced Multimodal Learning Yake Wei Siwei Li Ruoxuan Feng Di Hu 33 3 0 12 Jul 2024
Rethinking temporal self-similarity for repetitive action counting Yanan Luo Jinhui Yi Yazan Abu Farha Moritz Wolter Juergen Gall 31 1 0 12 Jul 2024
Weakly-supervised Autism Severity Assessment in Long Videos Abid Ali Mahmoud Ali J. Odobez Camilla Barbini Séverine Dubuisson Francois Bremond Susanne Thümmler 25 0 0 12 Jul 2024
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models J. Kim Min-Jung Kim Junsoo Lee Jaegul Choo DiffM 39 5 0 12 Jul 2024
VideoMamba: Spatio-Temporal Selective State Space Model Jinyoung Park Hee-Seon Kim Kangwook Ko Minbeom Kim Changick Kim Mamba 42 7 0 11 Jul 2024
PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines Zidong Wang Zeyu Lu Di Huang Tong He Xihui Liu Wanli Ouyang Lei Bai 41 5 0 11 Jul 2024
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing Jinxing Zhou Dan Guo Yuxin Mao Yiran Zhong Xiaojun Chang Meng Wang 44 12 0 11 Jul 2024
Rethinking Image-to-Video Adaptation: An Object-centric Perspective Rui Qian Shuangrui Ding Dahua Lin OCL 52 1 0 09 Jul 2024
C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition Rongchang Li Zhenhua Feng Tianyang Xu Linze Li Xiao-Jun Wu Muhammad Awais Sara Atito Josef Kittler CoGe 60 5 0 08 Jul 2024
iSign: A Benchmark for Indian Sign Language Processing Abhinav Joshi Romit Mohanty Mounika Kanakanti Andesha Mangla Sudeep Choudhary Monali Barbate Ashutosh Modi VLM 40 3 0 07 Jul 2024
DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition Qi Wang Zhou Xu Yuming Lin Jingtao Ye Hongsheng Li Guangming Zhu Syed Afaq Ali Shah Mohammed Bennamoun Liang Zhang AI4TS 46 5 0 06 Jul 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 47 7 0 05 Jul 2024
Computer Vision for Clinical Gait Analysis: A Gait Abnormality Video Dataset Rahm Ranjan David Ahmedt-Aristizabal M. Armin Juno Kim 35 4 0 05 Jul 2024
PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition Y. Hao Diansong Zhou Zhicai Wang Chong-Wah Ngo Meng Wang ViT 40 5 0 03 Jul 2024
Advancing Compressed Video Action Recognition through Progressive Knowledge Distillation Efstathia Soufleri Deepak Ravikumar Kaushik Roy 26 1 0 02 Jul 2024
Multi-Modal Video Dialog State Tracking in the Wild Adnen Abdessaied Lei Shi Andreas Bulling 19 2 0 02 Jul 2024
Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision Hao Dong Eleni Chatzi Olga Fink 38 3 0 01 Jul 2024
Emotion Loss Attacking: Adversarial Attack Perception for Skeleton based on Multi-dimensional Features Feng Liu Qing Xu Qijian Zheng AAML 31 2 0 28 Jun 2024
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment Hao Fei Shengqiong Wu Meishan Zhang Hao Fei Tat-Seng Chua Shuicheng Yan AI4TS 47 40 0 27 Jun 2024
Expressive Keypoints for Skeleton-based Action Recognition via Skeleton Transformation Yijie Yang Jinlu Zhang Jiaxu Zhang Zhigang Tu 35 5 0 26 Jun 2024
Fast Tree-Field Integrators: From Low Displacement Rank to Topological Transformers Krzysztof Choromanski Arijit Sehanobish Somnath Basu Roy Chowdhury Han Lin Avinava Dubey Tamás Sarlós Snigdha Chaturvedi AI4CE 27 0 0 22 Jun 2024
Exploring the Impact of Hand Pose and Shadow on Hand-washing Action Recognition Shengtai Ju A. Reibman CVBM 44 1 0 19 Jun 2024
Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space Yuan Wang Zhao Wang Junhao Gong Di Huang Tong He ... J. Jiao Xuetao Feng Qi Dou Shixiang Tang Dan Xu 46 3 0 17 Jun 2024
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding Muhammad Maaz H. Rasheed Salman Khan Fahad A Khan VLM MLLM 40 51 0 13 Jun 2024
Explore the Limits of Omni-modal Pretraining at Scale Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue VLM LRM 49 1 0 13 Jun 2024
OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation Junke Wang Yi-Xin Jiang Zehuan Yuan Binyue Peng Zuxuan Wu Yu-Gang Jiang ViT VGen 80 38 0 13 Jun 2024
SimGen: Simulator-conditioned Driving Scene Generation Yunsong Zhou Michael Simon Zhenghao Peng Sicheng Mo Hongzi Zhu Minyi Guo Bolei Zhou VGen 49 11 0 13 Jun 2024
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos Changan Chen Puyuan Peng Ami Baid Zihui Xue Wei-Ning Hsu David Harwath Kristen Grauman VGen 42 8 0 13 Jun 2024
Thoracic Surgery Video Analysis for Surgical Phase Recognition S. Mateen Niharika Malvia Syed Abdul Khader Danny Wang Deepti Srinivasan Chi-Fu Jeffrey Yang Lana Schumacher Sandeep Manjanna 23 0 0 13 Jun 2024
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding Yuan-Ming Li Wei-Jin Huang An-Lan Wang Ling-an Zeng Jing-Ke Meng Wei-Shi Zheng 37 12 0 13 Jun 2024
Cognitively Inspired Energy-Based World Models Alexi Gladstone Ganesh Nanduru Md. Mofijul Islam Aman Chadha Jundong Li Tariq Iqbal 39 0 0 13 Jun 2024