v1v2v3 (latest)

Long Movie Clip Classification with State-Space Video Models

4 April 2022

Md. Mohaiminul Islam

Gedas Bertasius

VLM

ArXiv (abs)PDF HTML Github (55★)

Papers citing "Long Movie Clip Classification with State-Space Video Models"

50 / 77 papers shown

Title
Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolution Shijun Shi Jing Xu Lijing Lu Zhihang Li Kai Hu 37 0 0 01 Jun 2025
Multimodal Conversation Structure Understanding Kent K. Chang Mackenzie Cramer Anna Ho Ti Ti Nguyen Yilin Yuan David Bamman 54 0 0 23 May 2025
REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding Sakib Reza Xiyun Song Heather Yu Zongfang Lin Mohsen Moghaddam Mario Sznaier 71 0 0 07 Apr 2025
Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards Hanping Zhang Yuhong Guo OffRL 116 0 0 03 Apr 2025
AIMI: Leveraging Future Knowledge and Personalization in Sparse Event Forecasting for Treatment Adherence Abdullah Mamun Diane J. Cook Hassan Ghasemzadeh AI4TS 77 0 0 20 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 116 0 0 17 Mar 2025
VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining Yunze Liu Peiran Wu C. Liang Junxiao Shen Limin Wang Li Yi Mamba 161 1 0 16 Mar 2025
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering Md. Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani 515 2 0 12 Mar 2025
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding Shehreen Azad Vibhav Vineet Yogesh S Rawat VLM 493 3 0 11 Mar 2025
GLAM: Global-Local Variation Awareness in Mamba-based World Model Qian He Wenqi Liang Chunhui Hao Gan Sun Jiandong Tian 127 0 0 21 Jan 2025
Boundary-enhanced time series data imputation with long-term dependency diffusion models Chunjing Xiao Xue Jiang Xianghe Du Wei Yang Wei Lu Xinyu Wang Kevin Chetty 155 4 0 11 Jan 2025
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames Pinelopi Papalampidi Skanda Koppula Shreya Pathak Justin T Chiu Joseph Heyward Viorica Patraucean Jiajun Shen Antoine Miech Andrew Zisserman Aida Nematzdeh VLM 134 26 0 31 Dec 2024
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt Yuhao Wang Xuehu Liu T. Yan Yebin Liu Aihua Zheng Pingping Zhang Huchuan Lu 138 6 0 14 Dec 2024
NowYouSee Me: Context-Aware Automatic Audio Description Seon-Ho Lee Jue Wang D. Fan Zhikang Zhang Linda Liu Xiang Hao Vimal Bhat Xinyu Li 137 1 0 13 Dec 2024
GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning Yanjie Wang Zhikang Zhang Jue Wang D. Fan Zhenlin Xu Linda Liu Xiang Hao Vimal Bhat Xinyu Li VLM 117 1 0 10 Dec 2024
Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation Seokil Ham H. Kim Sangmin Woo Changick Kim Mamba 510 0 0 21 Nov 2024
Extending Video Masked Autoencoders to 128 frames N. B. Gundavarapu Luke Friedman Raghav Goyal Chaitra Hegde Eirikur Agustsson ... Mikhail Sirotenko Ming-Hsuan Yang Tobias Weyand Boqing Gong Leonid Sigal 118 1 0 20 Nov 2024
Video Token Merging for Long-form Video Understanding Seon-Ho Lee Jue Wang Zhikang Zhang D. Fan Xinyu Li 92 6 0 31 Oct 2024
FACTS: A Factored State-Space Framework For World Modelling Li Nanbo Firas Laakom Yucheng Xu Wenyi Wang Jürgen Schmidhuber AI4TS 538 1 0 28 Oct 2024
MambaSCI: Efficient Mamba-UNet for Quad-Bayer Patterned Video Snapshot Compressive Imaging Zhenghao Pan Haijin Zeng Jingyun Liang Yongyong Chen Kai Zhang Yong Xu Mamba 99 2 0 18 Oct 2024
HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution Weifeng Cao Xiaoyan Lei Jun Shi Wanyong Liang Jie Liu Zongfei Bai SupR 90 1 0 13 Oct 2024
Mamba Fusion: Learning Actions Through Questioning Zhikang Dong Apoorva Beedu Jason Sheinkopf Irfan Essa Mamba 140 3 0 17 Sep 2024
Enhancing Long Video Understanding via Hierarchical Event-Based Memory Dingxin Cheng Mingda Li Jingyu Liu Yongxin Guo Bin Jiang Qingbin Liu Xi Chen Bo Zhao 90 4 0 10 Sep 2024
HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics Gueter Josmy Faure Jia-Fong Yeh Min-Hung Chen Hung-Ting Su S. Lai Winston H. Hsu 96 3 0 30 Aug 2024
DrowzEE-G-Mamba: Leveraging EEG and State Space Models for Driver Drowsiness Detection Gourav Siddhad Sayantan Dey Partha Pratim Roy Mamba 77 3 0 28 Aug 2024
Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms Xiao Wang Shiao Wang Pengpeng Shao Bo Jiang Lin Zhu Yonghong Tian 347 3 0 19 Aug 2024
MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model Changcheng Xiao Qiong Cao Zhigang Luo L. Lan Mamba 90 14 0 17 Aug 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 108 6 0 31 Jul 2024
Long Range Switching Time Series Prediction via State Space Model Jiaming Zhang Yang Ding Yunfeng Gao 81 0 0 27 Jul 2024
VideoMamba: Spatio-Temporal Selective State Space Model Jinyoung Park Hee-Seon Kim Kangwook Ko Minbeom Kim Changick Kim Mamba 124 9 0 11 Jul 2024
DrVideo: Document Retrieval Based Long Video Understanding Ziyu Ma Chenhui Gou Hengcan Shi Bin Sun Shutao Li Hamid Rezatofighi Jianfei Cai VLM 82 15 0 18 Jun 2024
Slot State Space Models Jindong Jiang Fei Deng Gautam Singh Minseung Lee Sungjin Ahn 150 6 0 18 Jun 2024
MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation Ionuţ Grigore Călin-Adrian Popa Mamba MDE 117 1 0 06 Jun 2024
Encoding and Controlling Global Semantics for Long-form Video Question Answering Thong Nguyen Zhiyuan Hu Xiaobao Wu Cong-Duy Nguyen See-Kiong Ng Anh Tuan Luu 98 3 0 30 May 2024
"Previously on ..." From Recaps to Story Summarization Aditya Kumar Singh Dhruv Srivastava Makarand Tapaswi 80 1 0 19 May 2024
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution Xiaoyan Lei Wenlong Zhang Weifeng Cao 95 16 0 05 May 2024
Mamba-FETrack: Frame-Event Tracking via State Space Model Ju Huang Shiao Wang Shuai Wang Zhe Wu Tianlin Li Bowei Jiang Mamba 94 14 0 28 Apr 2024
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges Badri N. Patro Vijay Srinivas Agneeswaran Mamba 116 45 0 24 Apr 2024
A Survey on Visual Mamba Hanwei Zhang Ying Zhu Dan Wang Lijun Zhang Tianxiang Chen Zi Ye Mamba 95 68 0 24 Apr 2024
State Space Model for New-Generation Network Alternative to Transformers: A Survey Tianlin Li Shiao Wang Yuhe Ding Yuehang Li Wentao Wu ... Bowei Jiang Chenglong Li Yaowei Wang Yonghong Tian Jin Tang Mamba 143 53 0 15 Apr 2024
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim MLLM 133 101 0 08 Apr 2024
HSIMamba: Hyperpsectral Imaging Efficient Feature Learning with Bidirectional State Space for Classification Judy X Yang Jun Zhou Jing Wang Hui Tian Alan Wee-Chung Liew Mamba 75 15 0 30 Mar 2024
ReMamber: Referring Image Segmentation with Mamba Twister Yu-Hao Yang Chaofan Ma Jiangchao Yao Zhun Zhong Ya Zhang Yanfeng Wang Mamba 108 24 0 26 Mar 2024
VideoAgent: Long-form Video Understanding with Large Language Model as Agent Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy VLM 206 107 0 15 Mar 2024
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang Mamba 135 78 0 14 Mar 2024
Activating Wider Areas in Image Super-Resolution Cheng Cheng Hang Wang Hongbin Sun 73 9 0 13 Mar 2024
SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces Yuta Oshima Shohei Taniguchi Masahiro Suzuki Yutaka Matsuo 110 7 0 12 Mar 2024
VideoMamba: State Space Model for Efficient Video Understanding Kunchang Li Xinhao Li Yi Wang Yinan He Yali Wang Limin Wang Yu Qiao Mamba 67 214 0 11 Mar 2024
PointMamba: A Simple State Space Model for Point Cloud Analysis Dingkang Liang Xin Zhou Wei Xu Xingkui Zhu Zhikang Zou Xiaoqing Ye Xinyu Wang Xiang Bai 198 104 0 16 Feb 2024
FD-Vision Mamba for Endoscopic Exposure Correction Zhuoran Zheng Jun Zhang 83 9 0 09 Feb 2024