Cross-Modal Graph with Meta Concepts for Video Captioning

Cross-Modal Graph with Meta Concepts for Video Captioning

14 August 2021

Guosheng Lin

Papers citing "Cross-Modal Graph with Meta Concepts for Video Captioning"

7 / 7 papers shown

Title
EVC-MF: End-to-end Video Captioning Network with Multi-scale Features Tian-Zi Niu Zhen-Duo Chen Xin Luo Xin-Shun Xu 26 0 0 22 Oct 2024
Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph Generation Tao Pu Tianshui Chen Hefeng Wu Yongyi Lu Liangjie Lin ViT 42 13 0 23 Sep 2023
A Review of Deep Learning for Video Captioning Moloud Abdar Meenakshi Kollati Swaraja Kuraparthi Farhad Pourpanah Daniel J. McDuff ... Shuicheng Yan Abduallah A. Mohamed Abbas Khosravi Erik Cambria Fatih Porikli 3DV 34 21 0 22 Apr 2023
Accommodating Audio Modality in CLIP for Multimodal Processing Ludan Ruan Anwen Hu Yuqing Song Liang Zhang S. Zheng Qin Jin VLM 24 10 0 12 Mar 2023
Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network Bairui Wang Lin Ma Wei Zhang Wenhao Jiang Jingwen Wang Wei Liu 74 163 0 27 Aug 2019
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 133 496 0 24 Apr 2018
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,220 0 16 Nov 2016