v1v2 (latest)

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

13 December 2017

Papers citing "Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification"

50 / 657 papers shown

Title
Multiple Physics Pretraining for Physical Surrogate Models Michael McCabe Bruno Régaldo-Saint Blancard Liam Parker Ruben Ohana M. Cranmer ... Francois Lanusse Mariel Pettee Tiberiu Teşileanu Kyunghyun Cho Shirley Ho PINN AI4CE 108 56 0 04 Oct 2023
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video Xinhao Li Yuhan Zhu Limin Wang VLM 102 9 0 02 Oct 2023
Training a Large Video Model on a Single Machine in a Day Yue Zhao Philipp Krahenbuhl VLM 94 17 0 28 Sep 2023
Selective Volume Mixup for Video Action Recognition Yi Tan Zhaofan Qiu Y. Hao Ting Yao Xiangnan He Tao Mei ViT 72 2 0 18 Sep 2023
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval Nina Shvetsova Anna Kukleva Bernt Schiele Hilde Kuehne DiffM 77 4 0 16 Sep 2023
UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection Jun Xiong Peng Zhang Chuanyue Li Wei Huang Yufei Zha Tao You ViT 62 3 0 15 Sep 2023
Multimodal Fish Feeding Intensity Assessment in Aquaculture Meng Cui Xubo Liu Haohe Liu Zhuangzhuang Du Tao Chen Guoping Lian Daoliang Li Wenwu Wang 79 5 0 10 Sep 2023
EgoPCA: A New Framework for Egocentric Hand-Object Interaction Understanding Yue Xu Yong-Lu Li Zhemin Huang Michael Xu Liu Cewu Lu Yu-Wing Tai Chi-Keung Tang EgoV 60 10 0 05 Sep 2023
Multimodal Contrastive Learning with Hard Negative Sampling for Human Activity Recognition Hyeongju Choi Apoorva Beedu Irfan Essa SSL 71 3 0 03 Sep 2023
Self-Supervised Video Transformers for Isolated Sign Language Recognition Marcelo Sandoval-Castaneda Yanhong Li D. Brentari Karen Livescu Gregory Shakhnarovich SLR 73 6 0 02 Sep 2023
Computation-efficient Deep Learning for Computer Vision: A Survey Yulin Wang Yizeng Han Chaofei Wang Shiji Song Qi Tian Gao Huang VLM 132 20 0 27 Aug 2023
Attending Generalizability in Course of Deep Fake Detection by Exploring Multi-task Learning P. Balaji Abhijit Das Srijan Das A. Dantcheva CVBM 51 4 0 25 Aug 2023
Motion-Guided Masking for Spatiotemporal Representation Learning D. Fan Jue Wang Shuai Liao Yi Zhu Vimal Bhat H. Santos-Villalobos M. Rohith Xinyu Li VGen 83 22 0 24 Aug 2023
Masked Feature Modelling: Feature Masking for the Unsupervised Pre-training of a Graph Attention Network Block for Bottom-up Video Event Recognition Dimitrios Daskalakis Nikolaos Gkalelis Vasileios Mezaris 75 0 0 24 Aug 2023
NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic Videos Ziyuan Yang Sucheng Ren Zongwei Wu Nanxuan Zhao Junle Wang Jing Qin Shengfeng He 68 2 0 23 Aug 2023
Opening the Vocabulary of Egocentric Actions Dibyadip Chatterjee Fadime Sener Shugao Ma Angela Yao VLM 101 18 0 22 Aug 2023
Temporal-Distributed Backdoor Attack Against Video Based Action Recognition Xi Li Songhe Wang Rui Huang Mahanth K. Gowda G. Kesidis AAML 111 6 0 21 Aug 2023
Improving Continuous Sign Language Recognition with Cross-Lingual Signs Fangyun Wei Yutong Chen SLR 79 33 0 21 Aug 2023
Joint learning of images and videos with a single Vision Transformer Shuki Shimizu Toru Tamaki ViT 51 0 0 21 Aug 2023
Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning Qianqian Wang Junlong Du Ke Yan Shouhong Ding VLM 72 18 0 09 Aug 2023
Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment Kun Yuan Zishang Kong Chuanchuan Zheng Ming-Ting Sun Xingsen Wen ViT 81 14 0 31 Jul 2023
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration Harry Cheng Yangyang Guo Liqiang Nie Zhiyong Cheng Mohan S. Kankanhalli 92 7 0 27 Jul 2023
What Can Simple Arithmetic Operations Do for Temporal Modeling? Wenhao Wu Yuxin Song Zhun Sun Jingdong Wang Chang Xu Wanli Ouyang 96 11 0 18 Jul 2023
SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-training Hongfei Yan Yang Liu Yushen Wei Zerui Li Guanbin Li Liang Lin 84 43 0 17 Jul 2023
TALL: Thumbnail Layout for Deepfake Video Detection Yuting Xu Jian Liang Gengyun Jia Ziming Yang Yanhao Zhang Ran He ViT 151 61 0 14 Jul 2023
TVPR: Text-to-Video Person Retrieval and a New Benchmark Fan Ni Xu Zhang Jianhui Wu Guan-Nan Dong Aichun Zhu Hui Liu Yue Zhang 125 0 0 14 Jul 2023
Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition Syed Talal Wasim Muhammad Uzair Khattak Muzammal Naseer Salman Khan M. Shah Fahad Shahbaz Khan ViT 118 21 0 13 Jul 2023
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone Shraman Pramanick Yale Song Sayan Nag Kevin Qinghong Lin Hardik Shah Mike Zheng Shou Ramalingam Chellappa Pengchuan Zhang VLM 118 100 0 11 Jul 2023
Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models Wei Han Hui Chen MingSung Kan Soujanya Poria 96 1 0 09 Jul 2023
Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos Md Zahid Hasan Jiajing Chen Jiyang Wang Mohammed Shaiqur Rahman Ameya Joshi Senem Velipasalar Chinmay Hegde Anuj Sharma Soumik Sarkar VLM 124 20 0 16 Jun 2023
Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers Dominick Reilly Aman Chadha Srijan Das ViT 79 4 0 15 Jun 2023
Learning to Ground Instructional Articles in Videos through Narrations E. Mavroudi Triantafyllos Afouras Lorenzo Torresani DiffM 85 24 0 06 Jun 2023
Masked Autoencoder for Unsupervised Video Summarization Minho Shim Taeoh Kim Jinhyung Kim Dongyoon Wee 49 1 0 02 Jun 2023
Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning Sanjoy Kundu Shubham Trehan Sathyanarayanan N. Aakur LRM LM&Ro 71 3 0 26 May 2023
Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective Thanh-Dat Truong Khoa Luu EgoV 146 12 0 25 May 2023
TG-VQA: Ternary Game of Video Question Answering Hao Li Peng Jin Ze-Long Cheng Songyang Zhang Kai-xiang Chen Zhennan Wang Chang-rui Liu Jie Chen 84 10 0 17 May 2023
Lightweight Delivery Detection on Doorbell Cameras Pirazh Khorramshahi Zhe Wu Tianchen Wang Luke Deluccia Hongcheng Wang 61 0 0 13 May 2023
Visual Tuning Bruce X. B. Yu Jianlong Chang Haixin Wang Lin Liu Shijie Wang ... Lingxi Xie Haojie Li Zhouchen Lin Qi Tian Chang Wen Chen VLM 174 41 0 10 May 2023
Improve Video Representation with Temporal Adversarial Augmentation Jinhao Duan Quanfu Fan Hao-Ran Cheng Xiaoshuang Shi Kaidi Xu AAML AI4TS ViT 56 2 0 28 Apr 2023
SSTM: Spatiotemporal Recurrent Transformers for Multi-frame Optical Flow Estimation Fisseha Admasu Ferede M. Balasubramanian 55 3 0 26 Apr 2023
MRSN: Multi-Relation Support Network for Video Action Detection Yin-Dong Zheng Guo Chen Minglei Yuan Tong Lu 135 8 0 24 Apr 2023
Implicit Temporal Modeling with Learnable Alignment for Video Recognition S. Tu Qi Dai Zuxuan Wu Zhi-Qi Cheng Hang-Rui Hu Yu-Gang Jiang 109 37 0 20 Apr 2023
Pretrained Language Models as Visual Planners for Human Assistance Dhruvesh Patel H. Eghbalzadeh Nitin Kamra Michael L. Iuzzolino Unnat Jain Ruta Desai LM&Ro 87 25 0 17 Apr 2023
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision Jiani Huang Ziyang Li Mayur Naik Ser-Nam Lim 165 5 0 15 Apr 2023
Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment Kai Zhao Kun Yuan Ming-Ting Sun Xingsen Wen 65 20 0 13 Apr 2023
AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary Detection Wentao Zhu Yufang Huang Xi Xie Wenxian Liu Jincan Deng Debing Zhang Zhangyang Wang Ji Liu 68 17 0 12 Apr 2023
Scallop: A Language for Neurosymbolic Programming Ziyang Li Jiani Huang Mayur Naik ReLM LRM NAI 98 34 0 10 Apr 2023
Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution Tingting Liu Yuan Liu Chun-liang Zhang Liyin Yuan Xiubao Sui Qian Chen SupR 47 25 0 10 Apr 2023
SparseFormer: Sparse Visual Recognition via Limited Latent Tokens Ziteng Gao Zhan Tong Limin Wang Mike Zheng Shou 60 10 0 07 Apr 2023
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting Syed Talal Wasim Muzammal Naseer Salman Khan Fahad Shahbaz Khan M. Shah VLM VPVLM 114 79 0 06 Apr 2023