v1v2 (latest)

TALLFormer: Temporal Action Localization with a Long-memory Transformer

4 April 2022

Feng Cheng

Gedas Bertasius

ViT

ArXiv (abs)PDF HTML Github (52★)

Papers citing "TALLFormer: Temporal Action Localization with a Long-memory Transformer"

50 / 60 papers shown

Title
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Zijia Lu A S M Iftekhar Gaurav Mittal Tianjian Meng Xiawei Wang Cheng Zhao Rohith Kukkala Ehsan Elhamifar Mei Chen 72 0 0 22 May 2025
DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer Ho-Joong Kim Y. E. Lee Jung-Ho Hong Seong-Whan Lee 177 0 0 09 May 2025
Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer Ziyi Liu Yang Liu 72 1 0 21 Apr 2025
Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection Weijun Zhuang Qizhang Li Xin Li Ming-Yu Liu Xiaopeng Hong Feng Gao Fan Yang W. Zuo 79 0 0 20 Apr 2025
Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization Hongwei Ji Wulian Yun Mengshi Qi Huadong Ma LRM 445 0 0 18 Apr 2025
FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection Xinnan Zhu Yicheng Zhu Tixin Chen Wentao Wu Yuanjie Dang 116 0 0 01 Apr 2025
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs Lucas Ventura Antoine Yang Cordelia Schmid Gül Varol 88 0 0 31 Mar 2025
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding Mingze Xu Mingfei Gao Shiyu Li Jiasen Lu Zhe Gan Zhengfeng Lai Meng Cao Kai Kang Yue Yang Afshin Dehghan 145 5 0 24 Mar 2025
Measure Twice, Cut Once: Grasping Video Structures and Event Semantics with LLMs for Video Temporal Localization Zongshang Pang Mayu Otani Yuta Nakashima 128 0 0 12 Mar 2025
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos Chen-Da Liu-Zhang Lin Sui Shuming Liu Fangzhou Mu Ziyi Wang Bernard Ghanem 110 2 0 09 Mar 2025
Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video Runyang Feng Haoming Chen 3DH 145 0 0 15 Feb 2025
TimeRefine: Temporal Grounding with Time Refining Video LLM Xizi Wang Feng Cheng Ziyang Wang Huiyu Wang Md. Mohaiminul Islam Lorenzo Torresani Joey Tianyi Zhou Gedas Bertasius David J. Crandall 188 2 0 12 Dec 2024
PESFormer: Boosting Macro- and Micro-expression Spotting with Direct Timestamp Encoding Wang-Wang Yu Kai-Fu Yang Xiangrui Hu Jingwen Jiang Hong-Mei Yan Yong-Jie Li 62 0 0 24 Oct 2024
ContextDet: Temporal Action Detection with Adaptive Context Aggregation Ning Wang Yun Xiao Xiaopeng Peng Xiaojun Chang Xuanhong Wang Dingyi Fang 102 2 0 20 Oct 2024
Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024 Haowei Gu Weihao Zhu Yang Yang 78 0 0 29 Sep 2024
Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks Min Yang Zichen Zhang Limin Wang AI4TS 66 0 0 27 Sep 2024
Introducing Gating and Context into Temporal Action Detection Aglind Reka Diana Laura Borza Dominick Reilly Michal Balazia Francois Bremond 73 0 0 06 Sep 2024
HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization Sakib Reza Yuexi Zhang Mohsen Moghaddam Mario Sznaier 79 3 0 12 Aug 2024
Online Temporal Action Localization with Memory-Augmented Transformer Youngkil Song Dongkeun Kim Minsu Cho Suha Kwak 73 1 0 06 Aug 2024
Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism Sangyoun Lee Juho Jung Changdae Oh Sunghee Yun 97 1 0 18 Jul 2024
Fine-grained Dynamic Network for Generic Event Boundary Detection Ziwei Zheng Lijun He Le Yang Fan Li 55 0 0 05 Jul 2024
DyFADet: Dynamic Feature Aggregation for Temporal Action Detection Le Yang Ziwei Zheng Yizeng Han Hao-Ran Cheng Shiji Song Gao Huang Fan Li 99 11 0 03 Jul 2024
Open-Vocabulary Temporal Action Localization using Multimodal Guidance Akshita Gupta Aditya Arora Sanath Narayan Salman Khan Fahad Shahbaz Khan Graham W. Taylor 90 4 0 21 Jun 2024
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos Ziyang Wang Shoubin Yu Elias Stengel-Eskin Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal 146 70 0 29 May 2024
TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression Ho-Joong Kim Jung-Ho Hong Heejo Kong Seong-Whan Lee 78 5 0 03 Apr 2024
LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization Akshita Gupta Gaurav Mittal Ahmed Magooda Ye Yu Graham W. Taylor Mei Chen 125 2 0 01 Apr 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 85 1 0 01 Apr 2024
PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization Edward Fish Jon Weinbren Andrew Gilbert 102 1 0 27 Mar 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger Florentin Wörgötter Alexander S. Ecker 129 6 0 29 Jan 2024
Dr $^2$ Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning Chen Zhao Shuming Liu K. Mangalam Guocheng Qian Fatimah Zohra Abdulmohsen Alghannam Jitendra Malik Guohao Li 77 3 0 08 Jan 2024
A Simple LLM Framework for Long-Range Video Question-Answering Ce Zhang Taixi Lu Md. Mohaiminul Islam Ziyang Wang Shoubin Yu Mohit Bansal Gedas Bertasius 192 92 0 28 Dec 2023
MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding Hongjie Zhang Yi Liu Lu Dong Yifei Huang Z. Ling Yali Wang Limin Wang Yu Qiao 93 31 0 08 Dec 2023
Low-power, Continuous Remote Behavioral Localization with Event Cameras Friedhelm Hamann Suman Ghosh Ignacio Juarez Martinez Tom Hart Alex Kacelnik Guillermo Gallego 60 8 0 06 Dec 2023
Adapting Short-Term Transformers for Action Detection in Untrimmed Videos Min Yang Huan Gao Ping Guo Limin Wang ViT 87 6 0 04 Dec 2023
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames Shuming Liu Chen-Da Liu-Zhang Chen Zhao Guohao Li 116 29 0 28 Nov 2023
Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition Jiaming Zhou Hanjun Li Kun-Yu Lin Junwei Liang 64 1 0 28 Nov 2023
Centre Stage: Centricity-based Audio-Visual Temporal Action Detection Hanyuan Wang Majid Mirmehdi Dima Damen Toby Perrett 82 2 0 28 Nov 2023
A Hybrid Graph Network for Complex Activity Detection in Video Salman Khan Izzeddin Teeti Andrew Bradley Mohamed Elhoseiny Fabio Cuzzolin 85 2 0 26 Oct 2023
Boundary Discretization and Reliable Classification Network for Temporal Action Detection Zhenying Fang Jun Yu Richang Hong 71 0 0 10 Oct 2023
Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization Edward Fish Jon Weinbren Andrew Gilbert 47 0 0 05 Oct 2023
VidChapters-7M: Video Chapters at Scale Antoine Yang Arsha Nagrani Ivan Laptev Josef Sivic Cordelia Schmid VGen 98 28 0 25 Sep 2023
Boundary-Aware Proposal Generation Method for Temporal Action Localization Hao Zhang Chunyan Feng Jiahui Yang Zheng Li Caili Guo 48 0 0 25 Sep 2023
Temporal Action Localization with Enhanced Instant Discriminability Ding Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao 81 9 0 11 Sep 2023
VideoComposer: Compositional Video Synthesis with Motion Controllability Xiang Wang Hangjie Yuan Shiwei Zhang Dayou Chen Jiuniu Wang Yingya Zhang Yujun Shen Deli Zhao Jingren Zhou VGen DiffM 121 341 0 03 Jun 2023
Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization Huantao Ren Wenfei Yang Tianzhu Zhang Yongdong Zhang 96 30 0 29 May 2023
Action Sensitivity Learning for Temporal Action Localization Jiayi Shao Xiaohan Wang Ruijie Quan Junjun Zheng Jiang Yang Yezhou Yang 126 24 0 25 May 2023
WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition Marius Bock Hilde Kuehne Kristof Van Laerhoven Michael Moeller EgoV 153 28 0 11 Apr 2023
Boundary-Denoising for Video Activity Localization Mengmeng Xu Mattia Soldan Jialin Gao Shuming Liu Juan-Manuel Perez-Rua Guohao Li 70 10 0 06 Apr 2023
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection Pilhyeon Lee Taeoh Kim Minho Shim Dongyoon Wee H. Byun 82 11 0 30 Mar 2023
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking Limin Wang Bingkun Huang Zhiyu Zhao Zhan Tong Yinan He Yi Wang Yali Wang Yu Qiao VGen 150 363 0 29 Mar 2023