Spatio-Temporal Attention Models for Grounded Video Captioning

17 October 2016

Papers citing "Spatio-Temporal Attention Models for Grounded Video Captioning"

8 / 8 papers shown

Title
Large-scale Pre-training for Grounded Video Caption Generation Evangelos Kazakos Cordelia Schmid Josef Sivic 59 0 0 13 Mar 2025
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes Derya Soydaner 3DV 44 149 0 27 Apr 2022
Consensus Graph Representation Learning for Better Grounded Image Captioning Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu Yueting Zhuang 15 54 0 02 Dec 2021
Relational Graph Learning for Grounded Video Description Generation Wenqiao Zhang Qing Guo Siliang Tang Haizhou Shi Haochen Shi Jun Xiao Yueting Zhuang Wei Wang 27 33 0 02 Dec 2021
Towards Diverse Paragraph Captioning for Untrimmed Videos Yuqing Song Shizhe Chen Qin Jin 21 37 0 30 May 2021
Video Super-resolution with Temporal Group Attention Takashi Isobe Songjiang Li Xu Jia Shanxin Yuan Greg Slabaugh Chunjing Xu Yali Li Shengjin Wang Qi Tian SupR 27 168 0 21 Jul 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 22 19 0 17 Jan 2020
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 27 190 0 17 Dec 2018