VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

v1v2v3 (latest)

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

21 March 2024

Ahmad A Mahmood

Muzammal Naseer

Salman Khan

Fahad Shahbaz Khan

ArXiv (abs)PDF HTML

Papers citing "VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding"

15 / 65 papers shown

Title
Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences Zhu Zhang Zhou Zhao Yang Zhao Qi. Wang Huasheng Liu Lianli Gao 73 118 0 19 Jan 2020
Predicting the Future: A Jointly Learnt Model for Action Anticipation Harshala Gammulle Simon Denman Sridha Sridharan Clinton Fookes 53 86 0 16 Dec 2019
mm-Pose: Real-Time Human Skeletal Posture Estimation using mmWave Radars and CNNs Arindam Sengupta Feng Jin Renyuan Zhang Siyang Cao 51 272 0 21 Nov 2019
CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases Tao Yu Rui Zhang H. Er Suyi Li Eric Xue ... Vincent Zhang Caiming Xiong R. Socher Walter S. Lasecki Dragomir R. Radev 52 234 0 11 Sep 2019
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 99 642 0 05 Sep 2018
Non-local Neural Networks Xinyu Wang Ross B. Girshick Abhinav Gupta Kaiming He OffRL 300 8,918 0 21 Nov 2017
Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting Ting Yu Haoteng Yin Zhanxing Zhu GNN AI4TS 140 3,729 0 14 Sep 2017
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions Chunhui Gu Chen Sun David A. Ross Carl Vondrick C. Pantofaru ... G. Toderici Susanna Ricco Rahul Sukthankar Cordelia Schmid Jitendra Malik VGen 126 1,031 0 23 May 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 240 8,041 0 22 May 2017
TALL: Temporal Activity Localization via Language Query J. Gao Chen Sun Zhenheng Yang Ram Nevatia 127 824 0 05 May 2017
3D Human Pose Estimation = 2D Pose Estimation + Matching Ching-Hang Chen Deva Ramanan 3DH 94 535 0 20 Dec 2016
Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Zhe Cao Tomas Simon S. Wei Yaser Sheikh 3DH 156 6,551 0 24 Nov 2016
Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding Gunnar Sigurdsson Gül Varol Xinyu Wang Ali Farhadi Ivan Laptev Abhinav Gupta VGen 113 1,247 0 06 Apr 2016
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 226 5,509 0 03 May 2015
DeepPose: Human Pose Estimation via Deep Neural Networks Alexander Toshev Christian Szegedy 3DH 183 2,780 0 17 Dec 2013