Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding

6 April 2016

Papers citing "Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding"

50 / 287 papers shown

Title
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 31 7 0 16 Feb 2023
CholecTriplet2022: Show me a tool and tell me the triplet -- an endoscopic vision challenge for surgical action triplet detection C. Nwoye Tong Yu Saurav Sharma Aditya Murali Deepak Alapatt ... Pietro Mascagni B. Seeliger Cristians Gonzalez Didier Mutter N. Padoy 32 17 0 13 Feb 2023
DDS: Decoupled Dynamic Scene-Graph Generation Network A S M Iftekhar Raphael Ruschel Satish Kumar Suya You B. S. Manjunath 44 2 0 18 Jan 2023
Building Scalable Video Understanding Benchmarks through Sports Aniket Agarwal Alex Zhang Karthik R. Narasimhan Igor Gilitschenski Vishvak Murahari Yash Kant 19 1 0 17 Jan 2023
Test of Time: Instilling Video-Language Models with a Sense of Time Piyush Bagad Makarand Tapaswi Cees G. M. Snoek 86 36 0 05 Jan 2023
Hypotheses Tree Building for One-Shot Temporal Sentence Localization Daizong Liu Xiang Fang Pan Zhou Xing Di Weining Lu Yu Cheng 37 19 0 05 Jan 2023
Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence Grounding Jiahao Zhu Daizong Liu Pan Zhou Xing Di Yu Cheng ... Wenzheng Xu Zichuan Xu Yao Wan Lichao Sun Zeyu Xiong 27 18 0 02 Jan 2023
MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding Wei Ji Long Chen Yin-wei Wei Yiming Wu Tat-Seng Chua AI4TS 37 18 0 26 Dec 2022
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu VLM VGen 34 46 0 09 Dec 2022
Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene Segmentation Jie Jiang Zhimin Li Jiangfeng Xiong Rongwei Quan Qinglin Lu Wei Liu 36 2 0 09 Dec 2022
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning A. Piergiovanni Weicheng Kuo A. Angelova ViT 38 54 0 06 Dec 2022
Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations Minghao Chen Renbo Tu Chenxi Huang Yuqi Lin Boxi Wu Deng Cai SSL AI4TS 37 1 0 06 Dec 2022
Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight Yunhua Zhang Hazel Doughty Cees G. M. Snoek VLM 45 0 0 05 Dec 2022
DiffusionDet: Diffusion Model for Object Detection Shoufa Chen Pei Sun Yibing Song Ping Luo 68 443 0 17 Nov 2022
Token Turing Machines Michael S. Ryoo K. Gopalakrishnan Kumara Kahatapitiya Ted Xiao Kanishka Rao Austin Stone Yao Lu Julian Ibarz Anurag Arnab 27 21 0 16 Nov 2022
Discovering A Variety of Objects in Spatio-Temporal Human-Object Interactions Yong-Lu Li Hongwei Fan Zuoyu Qiu Yiming Dou Liang Xu ... Peiyang Guo Haisheng Su Dongliang Wang Wei Wu Cewu Lu 35 7 0 14 Nov 2022
SSGVS: Semantic Scene Graph-to-Video Synthesis Yuren Cong Jinhui Yi Bodo Rosenhahn M. Yang 67 7 0 11 Nov 2022
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks Hyolim Kang Hanjung Kim Joungbin An Minsu Cho Seon Joo Kim 38 5 0 11 Nov 2022
No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration Jose Vargas-Quiros Laura Cabrera-Quiros Hayley Hung 29 1 0 01 Nov 2022
S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces Eric N. D. Nguyen Karan Goel Albert Gu Gordon W. Downs Preey Shah Tri Dao S. Baccus Christopher Ré VLM 22 39 0 12 Oct 2022
EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations Ahmad Darkhalil Dandan Shan Bin Zhu Jian Ma Amlan Kar Richard E. L. Higgins Sanja Fidler David Fouhey Dima Damen VOS 55 98 0 26 Sep 2022
Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding Erica K. Shimomoto Edison Marrese-Taylor Hiroya Takamura Ichiro Kobayashi Hideki Nakayama Yusuke Miyao 27 7 0 26 Sep 2022
BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video A. Athar Jonathon Luiten P. Voigtlaender Tarasha Khurana Achal Dave Bastian Leibe Deva Ramanan VOS VLM 24 57 0 25 Sep 2022
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval Xiang Fang Daizong Liu Pan Zhou Yuchong Hu 82 39 0 23 Sep 2022
Vision Transformers for Action Recognition: A Survey Anwaar Ulhaq Naveed Akhtar Ganna Pogrebna Ajmal Mian ViT 28 44 0 13 Sep 2022
Hierarchical Local-Global Transformer for Temporal Sentence Grounding Xiang Fang Daizong Liu Pan Zhou Zichuan Xu Rui Li 38 28 0 31 Aug 2022
MuMUR : Multilingual Multimodal Universal Retrieval Avinash Madasu Estelle Aflalo Gabriela Ben-Melech Stan Shachar Rosenman Shao-Yen Tseng Gedas Bertasius Vasudev Lal 44 3 0 24 Aug 2022
Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living Zdravko Marinov David Schneider Alina Roitberg Rainer Stiefelhagen VGen 32 2 0 03 Aug 2022
Reducing the Vision and Language Bias for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Wei Hu 19 49 0 27 Jul 2022
Bodily Behaviors in Social Interaction: Novel Annotations and State-of-the-Art Evaluation Michal Balazia Philippe Muller Ákos Levente Tánczos A. V. Liechtenstein Franccois Brémond 17 22 0 26 Jul 2022
Is an Object-Centric Video Representation Beneficial for Transfer? Chuhan Zhang Ankush Gupta Andrew Zisserman ViT 37 27 0 20 Jul 2022
Learning Sequence Representations by Non-local Recurrent Neural Memory Wenjie Pei Xin Feng Canmiao Fu Qi Cao Guangming Lu Yu-Wing Tai AI4TS 27 1 0 20 Jul 2022
Disentangled Action Recognition with Knowledge Bases Zhekun Luo Shalini Ghosh Devin Guillory Keizo Kato Trevor Darrell Huijuan Xu 21 7 0 04 Jul 2022
Large-scale Robustness Analysis of Video Action Recognition Models Madeline Chantry Schiappa Naman Biyani Prudvi Kamtam Shruti Vyas Hamid Palangi Vibhav Vineet Yogesh S Rawat AAML 37 24 0 04 Jul 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 32 2 0 02 Jul 2022
Video Activity Localisation with Uncertainties in Temporal Boundary Jiabo Huang Hailin Jin S. Gong Yang Liu 24 23 0 26 Jun 2022
Self-Supervised Learning for Videos: A Survey Madeline Chantry Schiappa Yogesh S Rawat M. Shah SSL 36 131 0 18 Jun 2022
Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities Hammad A. Ayyubi Christopher Thomas Lovish Chum R. Lokesh Long Chen ... Xudong Lin Xuande Feng Jaywon Koo Sounak Ray Shih-Fu Chang AI4TS 31 0 0 14 Jun 2022
A CLIP-Hitchhiker's Guide to Long Video Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman CLIP 129 62 0 17 May 2022
Multimodal Conversational AI: A Survey of Datasets and Approaches Anirudh S. Sundar Larry Heck 38 29 0 13 May 2022
Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos Shuo Yang Xinxiao Wu 30 15 0 12 May 2022
Contrastive Language-Action Pre-training for Temporal Localization Mengmeng Xu Erhan Gundogdu ⋆⋆ Maksim Guohao Li M. Donoser Loris Bazzani 38 27 0 26 Apr 2022
Video Moment Retrieval from Text Queries via Single Frame Annotation Ran Cui Tianwen Qian Pai Peng E. Daskalaki Jingjing Chen Xiao-Wei Guo Huyang Sun Yu-Gang Jiang 17 35 0 20 Apr 2022
Measuring Compositional Consistency for Video Question Answering Mona Gandhi Mustafa Omer Gul Eva Prakash Madeleine Grunde-McLaughlin Ranjay Krishna Maneesh Agrawala CoGe 40 15 0 14 Apr 2022
Position-aware Location Regression Network for Temporal Video Grounding Sunoh Kim Kimin Yun J. Choi 27 4 0 12 Apr 2022
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound Yan-Bo Lin Jie Lei Joey Tianyi Zhou Gedas Bertasius 51 39 0 06 Apr 2022
Understanding 3D Object Articulation in Internet Videos Shengyi Qian Linyi Jin C. Rockwell Siyi Chen David Fouhey 27 29 0 30 Mar 2022
Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities Fadime Sener Dibyadip Chatterjee Daniel Shelepov Kun He Dipika Singhania Robert Y. Wang Angela Yao VGen 33 205 0 28 Mar 2022
Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding Yidan Sun Qin Chao Yangfeng Ji Boyang Albert Li VGen 37 10 0 11 Mar 2022
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach Xiaohan Lan Yitian Yuan Xin Wang Long Chen Zhi Wang Lin Ma Wenwu Zhu CML 27 15 0 10 Mar 2022