Open-book Video Captioning with Retrieve-Copy-Generate Network

Open-book Video Captioning with Retrieve-Copy-Generate Network

9 March 2021

Ying Shan

Bing Li

Papers citing "Open-book Video Captioning with Retrieve-Copy-Generate Network"

17 / 17 papers shown

Title
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin Yiming Li Li Yuan Shuicheng Yan Jie Chen 52 1 0 31 Dec 2024
A Modular Approach for Multimodal Summarization of TV Shows Louis Mahon Mirella Lapata 26 9 0 06 Mar 2024
MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning Bang-ju Yang Fenglin Liu X. Wu Yaowei Wang Xu Sun Yuexian Zou VLM CLIP 44 13 0 25 Aug 2023
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks Weicheng Kuo A. Piergiovanni Dahun Kim Xiyang Luo Benjamin Caine ... Luowei Zhou Andrew M. Dai Zhifeng Chen Claire Cui A. Angelova MLLM VLM 29 23 0 29 Mar 2023
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jing Chen VLM 42 63 0 21 Nov 2022
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 29 16 0 17 Nov 2022
Visual Subtitle Feature Enhanced Video Outline Generation Qi Lv Ziqiang Cao Wenrui Xie Derui Wang Jingwen Wang ... Yuan-Fang Li Min Cao Wenjie Li Sujian Li G. Fu VGen 15 0 0 24 Aug 2022
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications Fei Wu Qingzhong Wang Jian Bian Haoyi Xiong Ning Ding Feixiang Lu Junqing Cheng Dejing Dou AI4TS 24 52 0 02 Jun 2022
GL-RG: Global-Local Representation Granularity for Video Captioning Liqi Yan Qifan Wang Yiming Cui Fuli Feng Xiaojun Quan X. Zhang Dongfang Liu 23 59 0 22 May 2022
Support-set based Multi-modal Representation Enhancement for Video Captioning Xiaoya Chen Jingkuan Song Pengpeng Zeng Lianli Gao Hengtao Shen 24 4 0 19 May 2022
CLIP Meets Video Captioning: Concept-Aware Representation Learning Does Matter Bang-ju Yang Tong Zhang Yuexian Zou CLIP 25 20 0 30 Nov 2021
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning Xu Yan Zhengcong Fei Shuhui Wang Qingming Huang Qi Tian VGen 40 4 0 19 Nov 2021
The MSR-Video to Text Dataset with Clean Annotations Haoran Chen Jianmin Li Simone Frintrop Xiaolin Hu 24 18 0 12 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 120 189 0 19 Mar 2020
Better Captioning with Sequence-Level Exploration Jia Chen Qin Jin 37 12 0 08 Mar 2020
Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network Bairui Wang Lin Ma Wei Zhang Wenhao Jiang Jingwen Wang Wei Liu 71 163 0 27 Aug 2019