Dense-Captioning Events in Videos

2 May 2017

Li Fei-Fei

Papers citing "Dense-Captioning Events in Videos"

30 / 280 papers shown

Title
A Graph-Based Framework to Bridge Movies and Synopses Yu Xiong Chengyi Zhang Lingfeng Guo Hang Zhou Bolei Zhou Dahua Lin 32 62 0 24 Oct 2019
Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning Tanzila Rahman Bicheng Xu Leonid Sigal 30 78 0 22 Sep 2019
WSLLN: Weakly Supervised Natural Language Localization Networks M. Gao L. Davis R. Socher Caiming Xiong 19 80 0 31 Aug 2019
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention Cristian Rodriguez-Opazo Edison Marrese-Taylor F. Saleh Hongdong Li Stephen Gould 30 147 0 20 Aug 2019
Prediction and Description of Near-Future Activities in Video T. Mahmud Mohammad Billah Mahmudul Hasan Amit K. Roy-Chowdhury 31 16 0 02 Aug 2019
Use What You Have: Video Retrieval Using Representations From Collaborative Experts Yang Liu Samuel Albanie Arsha Nagrani Andrew Zisserman 36 387 0 31 Jul 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 25 133 0 22 Jul 2019
Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks Zhu Zhang Zhou Zhao Zhijie Lin Jingkuan Song Xiaofei He BDL 27 14 0 28 Jun 2019
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering Zhou Yu D. Xu Jun-chen Yu Ting Yu Zhou Zhao Yueting Zhuang Dacheng Tao 24 440 0 06 Jun 2019
Unsupervised Learning from Video with Deep Neural Embeddings Chengxu Zhuang Tianwei She A. Andonian Max Sobol Mark Daniel L. K. Yamins SSL 17 57 0 28 May 2019
Unsupervised Label Noise Modeling and Loss Correction Eric Arazo Sanchez Diego Ortego Paul Albert Noel E. O'Connor Kevin McGuinness NoLa 44 603 0 25 Apr 2019
Referring to Objects in Videos using Spatio-Temporal Identifying Descriptions Peratham Wiriyathammabhum Abhinav Shrivastava Vlad I. Morariu L. Davis 27 4 0 08 Apr 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 32 539 0 06 Apr 2019
COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis Yansong Tang Dajun Ding Yongming Rao Yu Zheng Danyang Zhang Lili Zhao Jiwen Lu Jie Zhou 27 306 0 07 Mar 2019
Audio-Visual Scene-Aware Dialog Huda AlAmri Vincent Cartillier Abhishek Das Jue Wang A. Cherian ... Tim K. Marks Chiori Hori Peter Anderson Stefan Lee Devi Parikh VGen 27 189 0 25 Jan 2019
Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos Dongliang He Xiang Zhao Jizhou Huang Fu Li Xiao-Chang Liu Shilei Wen 22 152 0 21 Jan 2019
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 32 191 0 17 Dec 2018
Weakly Supervised Dense Event Captioning in Videos Xuguang Duan Wen-bing Huang Chuang Gan Jingdong Wang Wenwu Zhu Junzhou Huang 33 148 0 10 Dec 2018
Object Detection from Scratch with Deep Supervision Zhiqiang Shen Zhuang Liu Jianguo Li Yu-Gang Jiang Yurong Chen Xiangyang Xue ObjD 24 77 0 25 Sep 2018
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 36 617 0 05 Sep 2018
The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary Guohao Li Juan Carlos Niebles Cees G. M. Snoek Fabian Caba Heilbron Humam Alwassel Victor Escorcia Ranjay Krishna S. Buch Cuong Duc Dao 42 65 0 11 Aug 2018
Recurrent Fusion Network for Image Captioning Wenhao Jiang Lin Ma Yu-Gang Jiang Wen Liu Tong Zhang ObjD 33 233 0 26 Jul 2018
Equal But Not The Same: Understanding the Implicit Relationship Between Persuasive Images and Text Ruotong Wang R. Hwa Adriana Kovashka 24 54 0 21 Jul 2018
RUC+CMU: System Report for Dense Captioning Events in Videos Shizhe Chen Yuqing Song Yida Zhao Jiarong Qiu Qin Jin Alexander G. Hauptmann 19 7 0 22 Jun 2018
Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story Generation Qiuyuan Huang Zhe Gan Asli Celikyilmaz D. Wu Jianfeng Wang Xiaodong He BDL 21 91 0 21 May 2018
Jointly Localizing and Describing Events for Dense Video Captioning Yehao Li Ting Yao Yingwei Pan Hongyang Chao Tao Mei 27 169 0 23 Apr 2018
SoccerNet: A Scalable Dataset for Action Spotting in Soccer Videos Silvio Giancola Mohieddine Amine Tarek Dghaily Guohao Li AI4TS 21 195 0 12 Apr 2018
Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment Li Ding Chenliang Xu 30 180 0 28 Mar 2018
A Neural Multi-sequence Alignment TeCHnique (NeuMATCH) Pelin Dogan Boyang Albert Li Leonid Sigal Markus Gross AI4TS 30 19 0 19 Feb 2018
The "something something" video database for learning and evaluating visual common sense Raghav Goyal Samira Ebrahimi Kahou Vincent Michalski Joanna Materzynska S. Westphal ... Moritz Mueller-Freitag F. Hoppe Christian Thurau Ingo Bax Roland Memisevic VLM 41 1,498 0 13 Jun 2017