Weakly Supervised Dense Video Captioning

Weakly Supervised Dense Video Captioning

5 April 2017

Papers citing "Weakly Supervised Dense Video Captioning"

17 / 17 papers shown

Title
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 32 36 0 10 Oct 2023
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 39 221 0 27 Feb 2023
Hierarchical Modular Network for Video Captioning Hanhua Ye Guorong Li Yuankai Qi Shuhui Wang Qingming Huang Ming-Hsuan Yang 27 67 0 24 Nov 2021
Multi-Level Visual Similarity Based Personalized Tourist Attraction Recommendation Using Geo-Tagged Photos Ling Chen Dandan Lyu Shanshan Yu Gencai Chen 19 10 0 17 Sep 2021
A Survey on Natural Language Video Localization Xinfang Liu Xiushan Nie Zhifang Tan Jie Guo Yilong Yin 28 7 0 01 Apr 2021
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 25 101 0 28 Jul 2020
SBAT: Video Captioning with Sparse Boundary-Aware Transformer Tao Jin Siyu Huang Ming Chen Yingming Li Zhongfei Zhang 32 52 0 23 Jul 2020
Multi-modal Dense Video Captioning Vladimir E. Iashin Esa Rahtu 22 164 0 17 Mar 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 22 19 0 17 Jan 2020
Reconstruct and Represent Video Contents for Captioning via Reinforcement Learning Wei Zhang Bairui Wang Lin Ma Wei Liu 20 67 0 03 Jun 2019
Audio Caption: Listen and Tell Mengyue Wu Heinrich Dinkel Kai Yu 22 61 0 25 Feb 2019
Weakly Supervised Dense Event Captioning in Videos Xuguang Duan Wen-bing Huang Chuang Gan Jingdong Wang Wenwu Zhu Junzhou Huang 33 148 0 10 Dec 2018
An Attempt towards Interpretable Audio-Visual Video Captioning Yapeng Tian Chenxiao Guan Justin Goodman Marc Moore Chenliang Xu 36 20 0 07 Dec 2018
Learning Visual Knowledge Memory Networks for Visual Question Answering Zhou Su Chen Zhu Yinpeng Dong Dongqi Cai Yurong Chen Jianguo Li 34 62 0 13 Jun 2018
Mining for meaning: from vision to language through multiple networks consensus Iulia Duta Andrei Liviu Nicolicioiu Simion-Vlad Bogolin Marius Leordeanu 18 3 0 05 Jun 2018
Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning Qing Guo Yuan-fang Wang William Yang Wang 13 76 0 15 Apr 2018
Reconstruction Network for Video Captioning Bairui Wang Lin Ma Wei Zhang Wen Liu 38 317 0 30 Mar 2018