A Multigrid Method for Efficiently Training Video Models

2 December 2019

Chaoxia Wu

Ross B. Girshick

Kaiming He

Christoph Feichtenhofer

Philipp Krahenbuhl

ArXiv PDF HTML

Papers citing "A Multigrid Method for Efficiently Training Video Models"

50 / 67 papers shown

Title
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 53 0 0 17 Mar 2025
Human Activity Recognition in an Open World D. Prijatelj Samuel Grieggs Jin Huang Dawei Du Ameya Shringi Christopher Funk Adam Kaufman Eric Robertson Walter J. Scheirer University of Notre Dame 72 3 0 17 Jan 2025
Fast Encoding and Decoding for Implicit Video Representation Hao Chen Saining Xie Ser-Nam Lim Abhinav Shrivastava 31 1 0 28 Sep 2024
Frequency-adaptive Multi-scale Deep Neural Networks Jizu Huang Rukang You Tao Zhou AI4CE 33 1 0 28 Sep 2024
Spatiotemporal Learning on Cell-embedded Graphs Yuan Mi Hao Sun 43 1 0 26 Sep 2024
A Multi-Level Framework for Accelerating Training Transformer Models Longwei Zou Han Zhang Yangdong Deng AI4CE 40 1 0 07 Apr 2024
AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale Adam Pardyl Michal Wronka Maciej Wolczyk Kamil Adamczewski Tomasz Trzciñski Bartosz Zieliñski 41 2 0 04 Apr 2024
Better Schedules for Low Precision Training of Deep Neural Networks Cameron R. Wolfe Anastasios Kyrillidis 47 1 0 04 Mar 2024
Video Recognition in Portrait Mode Mingfei Han Linjie Yang Xiaojie Jin Jiashi Feng Xiaojun Chang Heng Wang 30 3 0 21 Dec 2023
Training a Large Video Model on a Single Machine in a Day Yue Zhao Philipp Krahenbuhl VLM 34 15 0 28 Sep 2023
Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers Adam Pardyl Grzegorz Kurzejamski Jan Olszewski Tomasz Trzciñski Bartosz Zieliñski 28 1 0 23 Sep 2023
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration Harry Cheng Yangyang Guo Liqiang Nie Zhiyong Cheng Mohan S. Kankanhalli 37 7 0 27 Jul 2023
Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation Mennatullah Siam R. Karim Henghui Zhao Richard P. Wildes VOS 38 2 0 15 Jul 2023
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution Mostafa Dehghani Basil Mustafa Josip Djolonga Jonathan Heek Matthias Minderer ... Avital Oliver Piotr Padlewski A. Gritsenko Mario Luvcić N. Houlsby ViT 26 105 0 12 Jul 2023
A Block-Coordinate Approach of Multi-level Optimization with an Application to Physics-Informed Neural Networks Serge Gratton Valentin Mercier E. Riccietti P. Toint AI4CE 38 5 0 23 May 2023
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception Hassan Akbari Dan Kondratyuk Huayu Chen Rachel Hornung Haoran Wang Hartwig Adam VLM MoE 30 11 0 10 May 2023
RECLIP: Resource-efficient CLIP by Training with Small Images Runze Li Dahun Kim B. Bhanu Weicheng Kuo VLM CLIP 36 13 0 12 Apr 2023
FlexiViT: One Model for All Patch Sizes Lucas Beyer Pavel Izmailov Alexander Kolesnikov Mathilde Caron Simon Kornblith Xiaohua Zhai Matthias Minderer Michael Tschannen Ibrahim M. Alabdulmohsin Filip Pavetić VLM 45 90 0 15 Dec 2022
ResFormer: Scaling ViTs with Multi-Resolution Training Rui Tian Zuxuan Wu Qiuju Dai Hang-Rui Hu Yu Qiao Yu-Gang Jiang ViT 24 33 0 01 Dec 2022
Turbo Training with Token Dropout Tengda Han Weidi Xie Andrew Zisserman ViT 34 10 0 10 Oct 2022
An In-depth Study of Stochastic Backpropagation J. Fang Ming Xu Hao Chen Bing Shuai Zhuowen Tu Joseph Tighe BDL 35 1 0 30 Sep 2022
FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video Classification P. Jin Lichao Mou Yuansheng Hua Gui-Song Xia Xiao Xiang Zhu AI4TS 24 8 0 22 Sep 2022
Learning to Structure an Image with Few Colors and Beyond Yunzhong Hou Liang Zheng Stephen Gould MQ 30 1 0 17 Aug 2022
P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos Jiang Bian Xuhong Li Tao Wang Qingzhong Wang Jun Huang Chen Liu Jun Zhao Feixiang Lu Dejing Dou Haoyi Xiong 26 10 0 26 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 19 10 0 20 Jul 2022
Accelerating the Training of Video Super-Resolution Models Lijian Lin Xintao Wang Zhongang Qi Ying Shan 38 3 0 10 May 2022
In Defense of Image Pre-Training for Spatiotemporal Recognition Xianhang Li Huiyu Wang Chen Wei Jieru Mei Alan Yuille Yuyin Zhou Cihang Xie 30 0 0 03 May 2022
Long Movie Clip Classification with State-Space Video Models Md. Mohaiminul Islam Gedas Bertasius VLM 46 102 0 04 Apr 2022
Stochastic Backpropagation: A Memory Efficient Strategy for Training Video Models Feng Cheng Ming Xu Yuanjun Xiong Hao Chen Xinyu Li Wei Li Wei Xia 22 16 0 31 Mar 2022
DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition Thanh-Dat Truong Quoc-Huy Bui C. Duong Han-Seok Seo S. L. Phung Xin Li Khoa Luu ViT 42 49 0 19 Mar 2022
Multiview Transformers for Video Recognition Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid ViT 26 212 0 12 Jan 2022
Condensing a Sequence to One Informative Frame for Video Recognition Zhaofan Qiu Ting Yao Y. Shu Chong-Wah Ngo Tao Mei 36 9 0 11 Jan 2022
Optimization Planning for 3D ConvNets Zhaofan Qiu Ting Yao Chong-Wah Ngo Tao Mei 3DPC 3DH 39 9 0 11 Jan 2022
PyTorch Connectomics: A Scalable and Flexible Segmentation Framework for EM Connectomics Zudi Lin D. Wei J. Lichtman Hanspeter Pfister 32 22 0 10 Dec 2021
AdaPool: Exponential Adaptive Pooling for Information-Retaining Downsampling Alexandros Stergiou R. Poppe 36 78 0 01 Nov 2021
Temporal-attentive Covariance Pooling Networks for Video Recognition Zilin Gao Qilong Wang Bingbing Zhang Q. Hu P. Li 21 24 0 27 Oct 2021
Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation Jay Patravali Gaurav Mittal Ye Yu Fuxin Li Mei Chen 18 19 0 30 Sep 2021
MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition Jiawei Chen C. Ho ViT 26 77 0 20 Aug 2021
Globally Convergent Multilevel Training of Deep Residual Networks Alena Kopanicáková Rolf Krause 37 15 0 15 Jul 2021
Towards Long-Form Video Understanding Chaoxia Wu Philipp Krahenbuhl VLM ViT 49 166 0 21 Jun 2021
Space-time Mixing Attention for Video Transformer Adrian Bulat Juan-Manuel Perez-Rua Swathikiran Sudhakaran Brais Martínez Georgios Tzimiropoulos ViT 36 124 0 10 Jun 2021
Rethinking "Batch" in BatchNorm Yuxin Wu Justin Johnson BDL 43 66 0 17 May 2021
VideoLT: Large-scale Long-tailed Video Recognition Xing Zhang Zuxuan Wu Zejia Weng Huazhu Fu Jingjing Chen Yu-Gang Jiang Larry S. Davis 35 41 0 06 May 2021
Distributed Multigrid Neural Solvers on Megavoxel Domains Aditya Balu Sergio Botelho Biswajit Khara Vinay Rao C. Hegde S. Sarkar Santi S. Adavani A. Krishnamurthy Baskar Ganapathysubramanian AI4CE 14 11 0 29 Apr 2021
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman VGen 39 1,128 0 01 Apr 2021
Learning Representational Invariances for Data-Efficient Action Recognition Yuliang Zou Jinwoo Choi Qitong Wang Jia-Bin Huang 22 39 0 30 Mar 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 30 2,088 0 29 Mar 2021
No frame left behind: Full Video Action Recognition X. Liu S. Pintea F. Karimi Nejadasl Olaf Booij Jan van Gemert 19 40 0 29 Mar 2021
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization Mengmeng Xu Juan-Manuel Perez-Rua Xiatian Zhu Guohao Li Brais Martinez 15 27 0 28 Mar 2021
Coarse-Fine Networks for Temporal Activity Detection in Videos Kumara Kahatapitiya Michael S. Ryoo AI4TS 53 38 0 01 Mar 2021