Adaptive Focus for Efficient Video Recognition

7 May 2021

Yulin Wang

Gao Huang

Papers citing "Adaptive Focus for Efficient Video Recognition"

50 / 67 papers shown

Title
Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition Mengzhu Li Quanxing Zha Hongjun Wu CVBM 58 0 0 28 Feb 2025
Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition Yulin Wang Haoji Zhang Yang Yue Shiji Song Chao Deng Junlan Feng Gao Huang 79 3 0 15 Dec 2024
ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis Zanlin Ni Yulin Wang Renping Zhou Yizeng Han Jiayi Guo Zhiyuan Liu Yuan Yao Gao Huang 60 4 0 11 Nov 2024
Dynamic Diffusion Transformer Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Yibing Song Gao Huang Fan Wang Yang You 77 13 0 04 Oct 2024
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation Zanlin Ni Yulin Wang Renping Zhou Rui Lu Jiayi Guo Jinyi Hu Zhiyuan Liu Yuan Yao Gao Huang 37 7 0 31 Aug 2024
Sequence-aware Pre-training for Echocardiography Probe Guidance Haojun Jiang Zhenguo Sun Yu Sun Ning Jia Meng Li Shaqi Luo Shiji Song Gao Huang 34 1 0 27 Aug 2024
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators Yifan Pu Zhuofan Xia Jiayi Guo Dongchen Han Qixiu Li ... Ji Li Yizeng Han Shiji Song Gao Huang Xiu Li 58 12 0 11 Aug 2024
Fine-grained Dynamic Network for Generic Event Boundary Detection Ziwei Zheng Lijun He Le Yang Fan Li 28 0 0 05 Jul 2024
DyFADet: Dynamic Feature Aggregation for Temporal Action Detection Le Yang Ziwei Zheng Yizeng Han Hao-Ran Cheng Shiji Song Gao Huang Fan Li 58 8 0 03 Jul 2024
Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train Haojun Jiang Meng Li Zhenguo Sun Ning Jia Yu Sun Shaqi Luo Shiji Song Gao Huang 49 2 0 28 Jun 2024
Rule Based Learning with Dynamic (Graph) Neural Networks Florian Seiffarth 52 1 0 14 Jun 2024
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding Yingjie Zhai Wenshuo Li Yehui Tang Xinghao Chen Yunhe Wang ViT 30 0 0 14 May 2024
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models Zuyan Liu Yuhao Dong Yongming Rao Jie Zhou Jiwen Lu LRM 21 12 0 19 Mar 2024
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation Wangbo Zhao Jiasheng Tang Yizeng Han Yibing Song Kai Wang Gao Huang F. Wang Yang You 40 11 0 18 Mar 2024
GRA: Detecting Oriented Objects through Group-wise Rotating and Attention Jiangshan Wang Yifan Pu Yizeng Han Jiayi Guo Yiru Wang Xiu Li Gao Huang 41 9 0 17 Mar 2024
2023 Low-Power Computer Vision Challenge (LPCVC) Summary Leo Chen Benjamin Boardley Ping Hu Yiru Wang Yifan Pu ... Arseny Yanchenko S. Alyamkin Xiaowei Hu George K. Thiruvathukal Yu Lu 39 2 0 11 Mar 2024
HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition Qian Wu Ruoxuan Cui Yuke Li Haoqi Zhu ViT 32 2 0 10 Jan 2024
Text-Conditioned Resampler For Long Form Video Understanding Bruno Korbar Yongqin Xian A. Tonioni Andrew Zisserman Federico Tombari 38 12 0 19 Dec 2023
GSVA: Generalized Segmentation via Multimodal Large Language Models Zhuofan Xia Dongchen Han Yizeng Han Xuran Pan Shiji Song Gao Huang VLM 39 55 0 15 Dec 2023
Rank-DETR for High Quality Object Detection Yifan Pu Weicong Liang Yiduo Hao Yuhui Yuan Yukang Yang Chao Zhang Hanhua Hu Gao Huang 41 56 0 13 Oct 2023
Training a Large Video Model on a Single Machine in a Day Yue Zhao Philipp Krahenbuhl VLM 34 15 0 28 Sep 2023
Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval Rui Deng Qian Wu Yuke Li Haoran Fu 26 2 0 15 Sep 2023
Fine-grained Recognition with Learnable Semantic Data Augmentation Yifan Pu Yizeng Han Yulin Wang Junlan Feng Chao Deng Gao Huang 32 27 0 01 Sep 2023
Computation-efficient Deep Learning for Computer Vision: A Survey Yulin Wang Yizeng Han Chaofei Wang Shiji Song Qi Tian Gao Huang VLM 34 20 0 27 Aug 2023
Audio-Visual Glance Network for Efficient Video Recognition Muhammad Adi Nugroho Sangmin Woo Sumin Lee Changick Kim 19 5 0 18 Aug 2023
AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language Recognition Lianyu Hu Liqing Gao Zekang Liu Chi-Man Pun Wei Feng SLR 24 20 0 16 Aug 2023
View while Moving: Efficient Video Recognition in Long-untrimmed Videos Ye Tian Meng Yang Lanshan Zhang Zhizhen Zhang Yang Liu Xiao-Zhu Xie Xirong Que Wendong Wang 24 7 0 09 Aug 2023
Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation Shuangrui Ding Peisen Zhao Xiaopeng Zhang Rui Qian H. Xiong Qi Tian ViT 29 16 0 08 Aug 2023
How can objects help action recognition? Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 40 14 0 20 Jun 2023
Dynamic Perceiver for Efficient Visual Recognition Yizeng Han Dongchen Han Zeyu Liu Yulin Wang Xuran Pan Yifan Pu Chaorui Deng Junlan Feng S. Song Gao Huang 32 29 0 20 Jun 2023
Few-shot Action Recognition via Intra- and Inter-Video Information Maximization Huabin Liu W. Lin Tieyuan Chen Yuxi Li Shuyuan Li John See 44 5 0 10 May 2023
Efficient Video Action Detection with Token Dropout and Context Refinement Lei Chen Zhan Tong Yibing Song Gangshan Wu Limin Wang 36 14 0 17 Apr 2023
Frame Flexible Network Yitian Zhang Yue Bai Chang Liu Huan Wang Sheng Li Yun Fu 13 4 0 26 Mar 2023
Adaptive Rotated Convolution for Rotated Object Detection Yifan Pu Yiru Wang Zhuofan Xia Yizeng Han Yulin Wang Weihao Gan Zidong Wang S. Song Gao Huang 23 76 0 14 Mar 2023
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding Shuhan Tan Tushar Nagarajan Kristen Grauman 26 21 0 05 Jan 2023
Cross Modal Transformer: Towards Fast and Robust 3D Object Detection Junjie Yan Yingfei Liu Jian‐Yuan Sun Fan Jia Shuailin Li Tiancai Wang Xiangyu Zhang ViT 3DPC 28 55 0 03 Jan 2023
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang 100 48 0 31 Dec 2022
Deep Incubation: Training Large Models by Divide-and-Conquering Zanlin Ni Yulin Wang Jiangwei Yu Haojun Jiang Yu Cao Gao Huang VLM 18 11 0 08 Dec 2022
Look More but Care Less in Video Recognition Yitian Zhang Yue Bai Haiquan Wang Yi Xu Yun Fu 27 9 0 18 Nov 2022
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones Yulin Wang Yang Yue Rui Lu Tian-De Liu Zhaobai Zhong S. Song Gao Huang 37 28 0 17 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 48 36 0 17 Nov 2022
Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task Jannik Kossen Cătălina Cangea Eszter Vértes Andrew Jaegle Viorica Patraucean Ira Ktena Nenad Tomašev Danielle Belgrave 35 8 0 09 Nov 2022
GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction Samrudhdhi B. Rangrej Kevin J Liang Tal Hassner James J. Clark 27 3 0 24 Oct 2022
AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition Yulin Wang Yang Yue Xin-Wen Xu Ali Hassani V. Kulikov Nikita Orlov S. Song Humphrey Shi Gao Huang 26 17 0 27 Sep 2022
Rethinking Resolution in the Context of Efficient Video Recognition Chuofan Ma Qiushan Guo Yi-Xin Jiang Zehuan Yuan Ping Luo Xiaojuan Qi 68 12 0 26 Sep 2022
MAR: Masked Autoencoders for Efficient Action Recognition Zhiwu Qing Shiwei Zhang Ziyuan Huang Xiang Wang Yuehuang Wang Yiliang Lv Changxin Gao Nong Sang 32 42 0 24 Jul 2022
An Efficient Spatio-Temporal Pyramid Transformer for Action Detection Yuetian Weng Zizheng Pan Mingfei Han Xiaojun Chang Bohan Zhuang ViT 19 25 0 21 Jul 2022
NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition Boyang Xia Wenhao Wu Haoran Wang Rui Su Dongliang He Haosen Yang Xiaoran Fan Wanli Ouyang 23 21 0 21 Jul 2022
Temporal Saliency Query Network for Efficient Video Recognition Boyang Xia Zhihao Wang Wenhao Wu Haoran Wang Jungong Han 51 15 0 21 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 19 10 0 20 Jul 2022