Title
Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model Elaheh Baharlouei Mahsa Shafaei Yigeng Zhang Hugo Jair Escalante Thamar Solorio 51 0 0 12 Jun 2024
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding Ming Hu Peng Xia Lin Wang Siyuan Yan Feilong Tang ... Xuelian Cheng Jun Cheng Chi Liu Kaijing Zhou Zongyuan Ge 48 17 0 11 Jun 2024
Visual Representation Learning with Stochastic Frame Prediction Huiwon Jang Dongyoung Kim Junsu Kim Jinwoo Shin Pieter Abbeel Younggyo Seo 47 2 0 11 Jun 2024
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD Ioanna Ntinou Enrique Sanchez Georgios Tzimiropoulos 45 0 0 11 Jun 2024
Video-based Exercise Classification and Activated Muscle Group Prediction with Hybrid X3D-SlowFast Network Manvik Pasula Pramit Saha 29 0 0 10 Jun 2024
An Effective-Efficient Approach for Dense Multi-Label Action Detection Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton 37 0 0 10 Jun 2024
GAIA: Rethinking Action Quality Assessment for AI-Generated Videos Zijian Chen Wei Sun Yuan Tian Jun Jia Zicheng Zhang Jiarui Wang Ru Huang Xiongkuo Min Guangtao Zhai Wenjun Zhang EGVM 56 11 0 10 Jun 2024
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 59 10 1 09 Jun 2024
Diving Deep into the Motion Representation of Video-Text Models Chinmaya Devaraj Cornelia Fermuller Yiannis Aloimonos DiffM VGen 44 0 0 07 Jun 2024
FILS: Self-Supervised Video Feature Prediction In Semantic Language Space Mona Ahmadian Frank Guerin Andrew Gilbert 44 1 0 05 Jun 2024
Self-Supervised Skeleton-Based Action Representation Learning: A Benchmark and Beyond Jiahang Zhang Lilang Lin Shuai Yang Jiaying Liu SSL 45 0 0 05 Jun 2024
SVASTIN: Sparse Video Adversarial Attack via Spatio-Temporal Invertible Neural Networks Yi Pan Jun-Jie Huang Zihan Chen Wentao Zhao Ziyue Wang 30 0 0 04 Jun 2024
Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models Georgia Markham M. Balamurali Andrew J. Hill 49 1 0 03 Jun 2024
Pedestrian intention prediction in Adverse Weather Conditions with Spiking Neural Networks and Dynamic Vision Sensors Mustafa Sakhai Szymon Mazurek Jakub Caputa Jan K. Argasiñski Maciej Wielgosz 37 3 0 01 Jun 2024
DroneVis: Versatile Computer Vision Library for Drones Ahmed Heakl F. Youssef Victor Parque Walid Gomaa AI4TS 52 1 0 01 Jun 2024
Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition Masashi Hatano Ryo Hachiuma Ryoske Fujii Hideo Saito EgoV 42 4 0 30 May 2024
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark Haoxing Chen Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu ... Jun Lan Huijia Zhu Jianfu Zhang Weiqiang Wang Huaxiong Li Mamba 83 16 0 30 May 2024
PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild Kun Yuan Hongbo Liu Mading Li Muyi Sun Ming Sun Jiachao Gong Jinhua Hao Chao Zhou Yansong Tang ViT 60 5 0 28 May 2024
MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance Yake Wei Di Hu 34 13 0 28 May 2024
MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities Hao Dong Yue Zhao Eleni Chatzi Olga Fink OODD 43 11 0 27 May 2024
The SkatingVerse Workshop & Challenge: Methods and Results Jian Zhao Lei Jin Jianshu Li Zheng Zhu Yinglei Teng ... Shiníchi Satoh Yandong Guo Cewu Lu Junliang Xing Jane Shengmei Shen AI4TS 38 0 0 27 May 2024
Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception Shuangpeng Han Ziyu Wang Mengmi Zhang 36 0 0 26 May 2024
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning Sucheng Ren Hongru Zhu Chen Wei Yijiang Li Alan Yuille Cihang Xie AI4TS VGen SSL 59 1 0 24 May 2024
MuDreamer: Learning Predictive World Models without Reconstruction Maxime Burchi Radu Timofte 40 3 0 23 May 2024
Improving Gloss-free Sign Language Translation by Reducing Representation Density Jinhui Ye Xing Wang Wenxiang Jiao Junwei Liang Hui Xiong 49 6 0 23 May 2024
Counterfactual Gradients-based Quantification of Prediction Trust in Neural Networks Mohit Prabhushankar Ghassan AlRegib UQCV 29 0 0 22 May 2024
From CNNs to Transformers in Multimodal Human Action Recognition: A Survey Muhammad Bilal Shaikh Syed Mohammed Shamsul Islam Douglas Chai Naveed Akhtar 35 9 0 22 May 2024
BIMM: Brain Inspired Masked Modeling for Video Representation Learning Zhifan Wan Jie Zhang Chang-bo Li Shiguang Shan 69 0 0 21 May 2024
A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges Huangjun Shen Liangying Shao Wenbo Li Zhibin Lan Zhanyu Liu Jinsong Su 44 2 0 21 May 2024
Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining Neena Aloysius M. Geetha Prema Nedungadi SLR 27 2 0 20 May 2024
Adaptive Batch Normalization Networks for Adversarial Robustness Shao-Yuan Lo Vishal M. Patel AAML OOD 38 1 0 20 May 2024
"Previously on ..." From Recaps to Story Summarization Aditya Kumar Singh Dhruv Srivastava Makarand Tapaswi 50 0 0 19 May 2024
From Sora What We Can See: A Survey of Text-to-Video Generation Rui Sun Yumin Zhang Tejal Shah Jiahao Sun Shuoying Zhang Wenqi Li Haoran Duan Bo Wei R. Ranjan EGVM 79 20 0 17 May 2024
Beyond Traditional Single Object Tracking: A Survey Omar Abdelaziz Mohamed Shehata Mohamed Mohamed 35 0 0 16 May 2024
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks Carmela Calabrese Stefano Berti Giulia Pasquale Lorenzo Natale VLM 43 0 0 14 May 2024
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding Yingjie Zhai Wenshuo Li Yehui Tang Xinghao Chen Yunhe Wang ViT 30 0 0 14 May 2024
Learning Latent Dynamic Robust Representations for World Models Ruixiang Sun Hongyu Zang Xin-hui Li Riashat Islam 39 5 0 10 May 2024
A Survey on Backbones for Deep Video Action Recognition Zixuan Tang Youjun Zhao Yuhang Wen Mengyuan Liu 41 1 0 09 May 2024
Sora and V-JEPA Have Not Learned The Complete Real World Model -- A Philosophical Analysis of Video AIs Through the Theory of Productive Imagination Jianqiu Zhang VGen 29 0 0 06 May 2024
Video Diffusion Models: A Survey Andrew Melnik Michal Ljubljanac Cong Lu Qi Yan Weiming Ren Helge J. Ritter VGen 71 12 0 06 May 2024
Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation Homanga Bharadhwaj Roozbeh Mottaghi Abhinav Gupta Shubham Tulsiani 3DPC 54 17 0 02 May 2024
Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy Hoang-Quan Nguyen Thanh-Dat Truong Khoa Luu 34 1 0 02 May 2024
Multimodal Fusion on Low-quality Data: A Comprehensive Survey Qingyang Zhang Yake Wei Zongbo Han Huazhu Fu Xi Peng ... Qinghua Hu Cai Xu Jie Wen Di Hu Changqing Zhang 57 26 0 27 Apr 2024
Learning text-to-video retrieval from image captioning Lucas Ventura Cordelia Schmid Gül Varol 3DV 44 3 0 26 Apr 2024
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning Lin Xu Yilin Zhao Daquan Zhou Zhijie Lin See Kiong Ng Jiashi Feng MLLM VLM 38 159 0 25 Apr 2024
SFMViT: SlowFast Meet ViT in Chaotic World Jiaying Lin Jiajun Wen Mengyuan Liu Jinfu Liu Baiqiao Yin Yue Li ViT 48 1 0 25 Apr 2024
TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models Haomiao Ni Bernhard Egger Suhas Lohit A. Cherian Ye Wang T. Koike-Akino S. X. Huang Tim K. Marks DiffM 45 12 0 25 Apr 2024
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges Badri N. Patro Vijay Srinivas Agneeswaran Mamba 46 38 0 24 Apr 2024
DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition Haozhe Cheng Chen Ju Haicheng Wang Jinxiang Liu Mengting Chen Qiang Hu Xiaoyun Zhang Yanfeng Wang DiffM VLM 43 5 0 23 Apr 2024
Latency-Distortion Tradeoffs in Communicating Classification Results over Noisy Channels N. Teku Sudarshan Adiga Ravi Tandon 48 0 0 22 Apr 2024