TSM: Temporal Shift Module for Efficient Video Understanding

20 November 2018

Chuang Gan

Song Han

Papers citing "TSM: Temporal Shift Module for Efficient Video Understanding"

50 / 71 papers shown

Title
SPKLIP: Aligning Spike Video Streams with Natural Language Yongchang Gao Meiling Jin Zhaofei Yu Tiejun Huang Guozhang Chen CLIP VLM 154 0 0 19 May 2025
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer Young-Hu Park R.-H. Park Hyung-Min Park 101 0 0 07 May 2025
CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition Jongseo Lee Joohyun Chang Dongho Lee Jinwoo Choi 219 0 0 30 Mar 2025
Cost-Sensitive Learning for Long-Tailed Temporal Action Segmentation Zhanzhong Pang Fadime Sener Shrinivas Ramasubramanian Angela Yao 96 1 0 24 Mar 2025
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding Zichen Liu Kunlun Xu Fuchun Sun Xu Zou Yuxin Peng Jiahuan Zhou VLM AI4TS 140 2 0 20 Mar 2025
Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma? Tianyuan Qu Longxiang Tang Bohao Peng Senqiao Yang Bei Yu Jiaya Jia VLM 396 0 0 16 Mar 2025
E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D Medical Image Segmentation Boqian Wu Q. Xiao Shiwei Liu Lu Yin Mykola Pechenizkiy Decebal Constantin Mocanu M. V. Keulen Elena Mocanu MedIm 114 5 0 20 Feb 2025
BILLNET: A Binarized Conv3D-LSTM Network with Logic-gated residual architecture for hardware-efficient video inference Van Thien Nguyen William Guicquero Gilles Sicard 3DV MQ 133 2 0 24 Jan 2025
Video Quality Assessment for Online Processing: From Spatial to Temporal Sampling Jiebin Yan Lei Wu Yuming Fang Xuelin Liu Xue Xia Weide Liu 309 2 0 13 Jan 2025
Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding Yiming Zhang Zhuokai Zhao Zhaorun Chen Zenghui Ding Xianjun Yang Yining Sun 444 1 0 21 Nov 2024
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition Ahmed Abdelkawy Asem A. Ali Asem Ali 3DPC 66 0 0 10 Aug 2024
MMAD: Multi-label Micro-Action Detection in Videos Kun Li Pengyu Liu Pengyu Liu Guoliang Chen Zhiliang Wu Hehe Fan Meng Wang 90 7 0 07 Jul 2024
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos Ziyang Wang Shoubin Yu Elias Stengel-Eskin Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal 115 65 0 29 May 2024
Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding Rong Gao Xin Liu Bohao Xing Zitong Yu Björn W. Schuller Heikki Kälviäinen 109 3 0 21 May 2024
MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition Hongyu Qu Rui Yan Xiangbo Shu Haoliang Gao Peng Huang Guo-Sen Xie 93 4 0 03 May 2024
Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition Tianlin Li Yao Rong Shiao Wang Yuan Chen Zhe Wu Bowei Jiang Yonghong Tian Jin Tang ViT 101 3 0 18 Dec 2023
Guided Weak Supervision for Action Recognition with Scarce Data to Assess Skills of Children with Autism Prashant Pandey P. PrathoshA. Manu Kohli Joshua K. Pritchard 63 33 0 11 Nov 2019
Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding Mathew Monfort Bowen Pan K. Ramakrishnan A. Andonian Barry A. McNamara A. Lascelles Quanfu Fan Dan Gutfreund Rogerio Feris A. Oliva VLM 78 68 0 01 Nov 2019
ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware Han Cai Ligeng Zhu Song Han 99 1,867 0 02 Dec 2018
HAQ: Hardware-Aware Automated Quantization with Mixed Precision Kuan-Chieh Wang Zhijian Liu Chengyue Wu Ji Lin Song Han MQ 124 881 0 21 Nov 2018
Shift-based Primitives for Efficient Convolutional Neural Networks Huasong Zhong Xianggen Liu Yihui He Yuchun Ma 47 20 0 22 Sep 2018
MnasNet: Platform-Aware Neural Architecture Search for Mobile Mingxing Tan Bo Chen Ruoming Pang Vijay Vasudevan Mark Sandler Andrew G. Howard Quoc V. Le MQ 117 3,009 0 31 Jul 2018
Motion Feature Network: Fixed Motion Filter for Action Recognition Myunggi Lee Seungeui Lee S. Son Gyutae Park Nojun Kwak 75 122 0 26 Jul 2018
Videos as Space-Time Region Graphs Xinyu Wang Abhinav Gupta 94 756 0 05 Jun 2018
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 183 499 0 24 Apr 2018
TVM: An Automated End-to-End Optimizing Compiler for Deep Learning Tianqi Chen T. Moreau Ziheng Jiang Lianmin Zheng Eddie Q. Yan ... Leyuan Wang Yuwei Hu Luis Ceze Carlos Guestrin Arvind Krishnamurthy 175 374 0 12 Feb 2018
AMC: AutoML for Model Compression and Acceleration on Mobile Devices Yihui He Ji Lin Zhijian Liu Hanrui Wang Li Li Song Han 90 1,347 0 10 Feb 2018
MobileNetV2: Inverted Residuals and Linear Bottlenecks Mark Sandler Andrew G. Howard Menglong Zhu A. Zhmoginov Liang-Chieh Chen 178 19,271 0 13 Jan 2018
Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification Saining Xie Chen Sun Jonathan Huang Zhuowen Tu Kevin Patrick Murphy 3DH 137 1,328 0 13 Dec 2017
Progressive Neural Architecture Search Chenxi Liu Barret Zoph Maxim Neumann Jonathon Shlens Wei Hua Li Li Li Fei-Fei Alan Yuille Jonathan Huang Kevin Patrick Murphy 103 1,990 0 02 Dec 2017
A Closer Look at Spatiotemporal Convolutions for Action Recognition Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri 215 3,030 0 30 Nov 2017
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks Zhaofan Qiu Ting Yao Tao Mei 84 1,662 0 28 Nov 2017
Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification Xiang Long Chuang Gan Gerard de Melo Jiajun Wu Xiao-Chang Liu Shilei Wen 57 209 0 27 Nov 2017
Appearance-and-Relation Networks for Video Classification Limin Wang Wei Li Wen Li Luc Van Gool 65 351 0 24 Nov 2017
Temporal Relational Reasoning in Videos Bolei Zhou A. Andonian Aude Oliva Antonio Torralba NAI 93 1,039 0 22 Nov 2017
Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions Bichen Wu Alvin Wan Xiangyu Yue Peter H. Jin Sicheng Zhao Noah Golmant A. Gholaminejad Joseph E. Gonzalez Kurt Keutzer 3DPC 63 364 0 22 Nov 2017
Non-local Neural Networks Xinyu Wang Ross B. Girshick Abhinav Gupta Kaiming He OffRL 283 8,905 0 21 Nov 2017
Learning Transferable Architectures for Scalable Image Recognition Barret Zoph Vijay Vasudevan Jonathon Shlens Quoc V. Le 172 5,596 0 21 Jul 2017
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices Xiangyu Zhang Xinyu Zhou Mengxiao Lin Jian Sun AI4TS 136 6,867 0 04 Jul 2017
The "something something" video database for learning and evaluating visual common sense Raghav Goyal Samira Ebrahimi Kahou Vincent Michalski Joanna Materzynska S. Westphal ... Moritz Mueller-Freitag F. Hoppe Christian Thurau Ingo Bax Roland Memisevic VLM 82 1,530 0 13 Jun 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 223 8,012 0 22 May 2017
The Kinetics Human Action Video Dataset W. Kay João Carreira Karen Simonyan Brian Zhang Chloe Hillier ... Tim Green T. Back Apostol Natsev Mustafa Suleyman Andrew Zisserman 250 3,801 0 19 May 2017
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand M. Andreetto Hartwig Adam 3DH 1.1K 20,832 0 17 Apr 2017
ActionVLAD: Learning spatio-temporal aggregation for action classification Rohit Girdhar Deva Ramanan Abhinav Gupta Josef Sivic Bryan C. Russell AI4TS 70 451 0 10 Apr 2017
Flow-Guided Feature Aggregation for Video Object Detection Xizhou Zhu Yujie Wang Jifeng Dai Lu Yuan Yichen Wei 87 620 0 29 Mar 2017
Trained Ternary Quantization Chenzhuo Zhu Song Han Huizi Mao W. Dally MQ 131 1,035 0 04 Dec 2016
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Zhuowen Tu Kaiming He 509 10,322 0 16 Nov 2016
Spatiotemporal Residual Networks for Video Action Recognition Christoph Feichtenhofer A. Pinz Richard P. Wildes 102 719 0 07 Nov 2016
Neural Architecture Search with Reinforcement Learning Barret Zoph Quoc V. Le 451 5,369 0 05 Nov 2016
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Limin Wang Yuanjun Xiong Zhe Wang Yu Qiao Dahua Lin Xiaoou Tang Luc Van Gool ViT 102 3,833 0 02 Aug 2016