v1v2 (latest)

ActionFormer: Localizing Moments of Actions with Transformers

16 February 2022

Chen-Da Liu-Zhang

Jianxin Wu

Yin Li

ViT

ArXiv (abs)PDF HTML Github (493★)

Papers citing "ActionFormer: Localizing Moments of Actions with Transformers"

50 / 205 papers shown

Title
VDT: General-purpose Video Diffusion Transformers via Mask Modeling Haoyu Lu Guoxing Yang Nanyi Fei Yuqi Huo Zhiwu Lu Ping Luo Mingyu Ding DiffM VGen 74 68 0 22 May 2023
VideoLLM: Modeling Video Sequence with Large Language Models Guo Chen Yin-Dong Zheng Jiahao Wang Jilan Xu Yifei Huang ... Yi Wang Yali Wang Yu Qiao Tong Lu Limin Wang MLLM 148 84 0 22 May 2023
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization Théophile Cabannes Shreya Ghosh Raphaël Marinier Tom Gedeon Alexandre M. Bayen Munawar Hayat 159 29 0 03 May 2023
Visual Transformation Telling Wanqing Cui Mustafa Nasir-Moin Yanyan Lan Viola J. Chen Jiafeng Guo Xueqi Cheng LRM 110 1 0 03 May 2023
Boosting Weakly-Supervised Temporal Action Localization with Text Information Guozhang Li De Cheng Xinpeng Ding N. Wang Xiaoyu Wang Xinbo Gao 73 25 0 01 May 2023
The 7th AI City Challenge M. Naphade Shuo Wang D. Anastasiu Zhenghang Tang Ming-Ching Chang ... Alice Li Shangru Li Krishna Kunadharaju Shenxin Jiang Ramalingam Chellappa 103 53 0 15 Apr 2023
DeepSegmenter: Temporal Action Localization for Detecting Anomalies in Untrimmed Naturalistic Driving Videos Armstrong Aboah Ulas Bagci Abdul Rashid Mussah Neema Jasika Owor Y. Adu-Gyamfi 64 10 0 13 Apr 2023
WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition Marius Bock Hilde Kuehne Kristof Van Laerhoven Michael Moeller EgoV 153 28 0 11 Apr 2023
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection Pilhyeon Lee Taeoh Kim Minho Shim Dongyoon Wee H. Byun 85 11 0 30 Mar 2023
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking Limin Wang Bingkun Huang Zhiyu Zhao Zhan Tong Yinan He Yi Wang Yali Wang Yu Qiao VGen 150 363 0 29 Mar 2023
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion Sauradip Nag Xiatian Zhu Jiankang Deng Yi-Zhe Song Tao Xiang DiffM VGen 110 24 0 27 Mar 2023
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline Tiantian Geng Teng Wang Jinming Duan Runmin Cong Feng Zheng 81 35 0 22 Mar 2023
Multi-modal Prompting for Low-Shot Temporal Action Localization Chen Ju Zeqian Li Peisen Zhao Ya Zhang Xiaopeng Zhang Qi Tian Yanfeng Wang Weidi Xie 81 20 0 21 Mar 2023
TemporalMaxer: Maximize Temporal Context with only Max Pooling for Temporal Action Localization Tuan N. Tang Kwonyoung Kim Kwanghoon Sohn 108 30 0 16 Mar 2023
Co-Occurrence Matters: Learning Action Relation for Temporal Action Localization Congqi Cao Yizhe Wang Yuelie Lu Xinyu Zhang Yanning Zhang 69 5 0 15 Mar 2023
TriDet: Temporal Action Detection with Relative Boundary Modeling Ding Shi Yujie Zhong Qiong Cao Lin Ma Jia Li Dacheng Tao ViT 114 134 0 13 Mar 2023
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 173 241 0 27 Feb 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 95 7 0 16 Feb 2023
Epic-Sounds: A Large-scale Dataset of Actions That Sound Jaesung Huh Jacob Chalk Evangelos Kazakos Dima Damen Andrew Zisserman EgoV 97 43 0 01 Feb 2023
HierVL: Learning Hierarchical Video-Language Embeddings Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman VLM AI4TS 111 59 0 05 Jan 2023
Ego-Only: Egocentric Action Detection without Exocentric Transferring Huiyu Wang Mitesh Singh Lorenzo Torresani EgoV 126 26 0 03 Jan 2023
Skeletal Video Anomaly Detection using Deep Learning: Survey, Challenges and Future Directions Pratik K. Mishra Alex Mihailidis Shehroz S. Khan 101 17 0 31 Dec 2022
Open-Vocabulary Temporal Action Detection with Off-the-Shelf Image-Text Features V. Rathod Bryan Seybold Sudheendra Vijayanarasimhan Austin Myers Xiuye Gu Vighnesh Birodkar David A. Ross VLM ObjD 66 7 0 20 Dec 2022
Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization Chen Ju Kunhao Zheng Jinxian Liu Peisen Zhao Ya Zhang Jianlong Chang Yanfeng Wang Qi Tian 58 11 0 19 Dec 2022
Contextual Explainable Video Representation: Human Perception-based Understanding Khoa T. Vo Kashu Yamazaki Phong H. Nguyen Pha Nguyen Khoa Luu Ngan Le 75 9 0 12 Dec 2022
CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection Kevin Hyekang Joo Khoa T. Vo Kashu Yamazaki Ngan Le 61 51 0 09 Dec 2022
InternVideo: General Video Foundation Models via Generative and Discriminative Learning Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang ... Junting Pan Jiashuo Yu Yali Wang Limin Wang Yu Qiao VLM VGen 169 332 0 06 Dec 2022
Post-Processing Temporal Action Detection Sauradip Nag Xiatian Zhu Yi-Zhe Song Tao Xiang 60 9 0 27 Nov 2022
Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization Chen Zhao Shuming Liu K. Mangalam Guohao Li 87 17 0 25 Nov 2022
Data Augmentation Vision Transformer for Fine-grained Image Classification Chao Hu Liqiang Zhu Weibin Qiu Weijie Wu ViT 71 3 0 23 Nov 2022
ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 Jiayi Shao Xiaohan Wang Yi Yang 41 1 0 17 Nov 2022
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang Limin Wang Yu Qiao ViT 120 113 0 17 Nov 2022
InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges Guo Chen Sen Xing Zhe Chen Yi Wang Kunchang Li ... Hongjie Zhang Tong Lu Yali Wang Liming Wang Yu Qiao 82 49 0 17 Nov 2022
Where a Strong Backbone Meets Strong Features -- ActionFormer for Ego4D Moment Queries Challenge Fangzhou Mu Sicheng Mo Gillian Wang Yin Li 74 3 0 16 Nov 2022
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022 Yin-Dong Zheng Guo Chen Jiahao Wang Tong Lu Liming Wang 78 0 0 16 Nov 2022
Exploring Detection-based Method For Speaker Diarization @ Ego4D Audio-only Diarization Challenge 2022 Jiahao Wang Guo Chen Yin-Dong Zheng Tong Lu 33 0 0 16 Nov 2022
A Simple Transformer-Based Model for Ego4D Natural Language Queries Challenge Sicheng Mo Fangzhou Mu Yin Li 58 7 0 16 Nov 2022
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks Hyolim Kang Hanjung Kim Joungbin An Minsu Cho Seon Joo Kim 82 5 0 11 Nov 2022
Prior-enhanced Temporal Action Localization using Subject-aware Spatial Attention Yifan Liu Youbao Tang Ning Zhang Ruei-Sung Lin Haoqian Wang 84 0 0 10 Nov 2022
SimOn: A Simple Framework for Online Temporal Action Localization Tuan N. Tang Jungin Park Kwonyoung Kim Kwanghoon Sohn 64 3 0 08 Nov 2022
Refining Action Boundaries for One-stage Detection Hanyuan Wang Majid Mirmehdi Dima Damen Toby Perrett ObjD 64 1 0 25 Oct 2022
mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D, and Inertial Sensors Sizhe An Yin Li Ümit Y. Ogras 3DH 103 57 0 15 Oct 2022
Vision Transformers for Action Recognition: A Survey Anwaar Ulhaq Naveed Akhtar Ganna Pogrebna Ajmal Mian ViT 82 45 0 13 Sep 2022
A Circular Window-based Cascade Transformer for Online Action Detection Shuyuan Cao Weihua Luo Bairui Wang Wei Emma Zhang Lin Ma 80 6 0 30 Aug 2022
Adaptive Perception Transformer for Temporal Action Localization Yizheng Ouyang Tianjin Zhang Weibo Gu Hongfa Wang 72 3 0 25 Aug 2022
Spotting Temporally Precise, Fine-Grained Events in Video James Hong Haotian Zhang Michael Gharbi Matthew Fisher Kayvon Fatahalian 104 36 0 20 Jul 2022
MVP: Robust Multi-View Practice for Driving Action Localization Jingjie Shang Kunchang Li Kaibin Tian Haisheng Su Yangguang Li 91 3 0 05 Jul 2022
One-stage Action Detection Transformer Lijun Li Lian Zhuo Bangyin Zhang ViT 47 0 0 21 Jun 2022
Video-based Human-Object Interaction Detection from Tubelet Tokens Danyang Tu Wei Sun Xiongkuo Min Guangtao Zhai Wei Shen ViT 95 17 0 04 Jun 2022
ETAD: Training Action Detection End to End on a Laptop Shuming Liu Mengmeng Xu Chen Zhao Xu Zhao Guohao Li 78 7 0 14 May 2022