What Actions are Needed for Understanding Human Actions in Videos?

9 August 2017

Papers citing "What Actions are Needed for Understanding Human Actions in Videos?"

27 / 27 papers shown

Title
Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects Agnese Chiatti Sara Bernardini Lara Shibelski Godoy Piccolo Viola Schiaffonati Matteo Matteucci 62 0 0 08 May 2025
STAR: A Benchmark for Situated Reasoning in Real-World Videos Bo Wu Shoubin Yu Zhenfang Chen Joshua B Tenenbaum Chuang Gan 38 178 0 15 May 2024
A Survey on Video Moment Localization Meng Liu Liqiang Nie Yunxiao Wang Meng Wang Yong Rui 34 28 0 13 Jun 2023
No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration Jose Vargas-Quiros Laura Cabrera-Quiros Hayley Hung 29 1 0 01 Nov 2022
Identifying Auxiliary or Adversarial Tasks Using Necessary Condition Analysis for Adversarial Multi-task Video Understanding Stephen Su Sam Kwong Qingyu Zhao De-An Huang Juan Carlos Niebles Ehsan Adeli 27 0 0 22 Aug 2022
A Multi-stage deep architecture for summary generation of soccer videos Melissa Sanabria F. Precioso Pierre-Alexandre Mattei Thomas Menguy 28 6 0 02 May 2022
Temporal Relevance Analysis for Video Action Models Quanfu Fan Donghyun Kim Chun-Fu Chen Chen Stan Sclaroff Kate Saenko Sarah Adel Bargal FAtt 33 0 0 25 Apr 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 18 3 0 16 Feb 2022
Black-box Error Diagnosis in Deep Neural Networks for Computer Vision: a Survey of Tools Piero Fraternali Federico Milani Rocio Nahime Torres Niccolò Zangrando AAML 33 9 0 17 Jan 2022
Recur, Attend or Convolve? On Whether Temporal Modeling Matters for Cross-Domain Robustness in Action Recognition Sofia Broomé Ernest Pokropek Boyu Li Hedvig Kjellström 21 7 0 22 Dec 2021
Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition Chun-Fu Chen Yikang Shen K. Ramakrishnan Rogerio Feris J. M. Cohn A. Oliva Quanfu Fan 23 95 0 22 Oct 2020
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hongdong Li Stephen Gould 137 11 0 13 Oct 2020
Uncovering Hidden Challenges in Query-Based Video Moment Retrieval Mayu Otani Yuta Nakashima Esa Rahtu J. Heikkilä 21 74 0 01 Sep 2020
AssembleNet++: Assembling Modality Representations via Attention Connections Michael S. Ryoo A. Piergiovanni Juhana Kangaspunta A. Angelova 15 44 0 18 Aug 2020
AViD Dataset: Anonymized Videos from Diverse Countries A. Piergiovanni Michael S. Ryoo 27 35 0 10 Jul 2020
Evolving Losses for Unsupervised Video Representation Learning A. Piergiovanni A. Angelova Michael S. Ryoo SSL 27 138 0 26 Feb 2020
Interpreting video features: a comparison of 3D convolutional networks and convolutional LSTM networks Joonatan Mänttäri Sofia Broomé John Folkesson Hedvig Kjellström FAtt 21 27 0 02 Feb 2020
Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation Zeyu Wang Klint Qinami Yannis Karakozis Kyle Genova P. Nair Kenji Hata Olga Russakovsky 38 355 0 26 Nov 2019
CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning Rohit Girdhar Deva Ramanan 19 176 0 10 Oct 2019
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention Cristian Rodriguez-Opazo Edison Marrese-Taylor F. Saleh Hongdong Li Stephen Gould 27 147 0 20 Aug 2019
RefineLoc: Iterative Refinement for Weakly-Supervised Action Localization Alejandro Pardo Humam Alwassel Fabian Caba Heilbron Ali K. Thabet Guohao Li 32 52 0 30 Mar 2019
TAN: Temporal Aggregation Network for Dense Multi-label Action Recognition Xiyang Dai Bharat Singh Joe Yue-Hei Ng L. Davis ViT 32 25 0 14 Dec 2018
Diagnosing Error in Temporal Action Detectors Humam Alwassel Fabian Caba Heilbron Victor Escorcia Guohao Li 43 106 0 27 Jul 2018
DenseImage Network: Video Spatial-Temporal Evolution Encoding and Understanding Xiaokai Chen Ke Gao VGen 18 5 0 19 May 2018
SoccerNet: A Scalable Dataset for Action Spotting in Soccer Videos Silvio Giancola Mohieddine Amine Tarek Dghaily Guohao Li AI4TS 21 194 0 12 Apr 2018
Recurrent Residual Module for Fast Inference in Videos Bowen Pan Wuwei Lin Xiaolin Fang Chaoqin Huang Bolei Zhou Cewu Lu ObjD 28 33 0 27 Feb 2018
Am I Done? Predicting Action Progress in Videos Federico Becattini Tiberio Uricchio Lorenzo Seidenari Lamberto Ballan A. Bimbo 30 33 0 04 May 2017