Memory-Attended Recurrent Network for Video Captioning

10 May 2019

Papers citing "Memory-Attended Recurrent Network for Video Captioning"

34 / 34 papers shown

Title
F $^3$ Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos Zhaoyu Liu Kan Jiang Murong Ma Zhe Hou Yun Lin Jin Song Dong 37 0 0 11 Apr 2025
Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning Caihua Liu Xu Li Wenjing Xue Wei Tang Xia Feng 56 0 0 20 Feb 2025
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 61 10 1 09 Jun 2024
Video ReCap: Recursive Captioning of Hour-Long Videos Md. Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius VGen VLM 35 47 0 20 Feb 2024
Few-shot Action Recognition with Captioning Foundation Models Xiang Wang Shiwei Zhang Hangjie Yuan Yingya Zhang Changxin Gao Deli Zhao Nong Sang VLM 37 7 0 16 Oct 2023
ViCo: Engaging Video Comment Generation with Human Preference Rewards Yuchong Sun Bei Liu Xu Chen Ruihua Song Jianlong Fu VGen 22 2 0 22 Aug 2023
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning Xian Zhong Zipeng Li Shuqin Chen Kui Jiang Chen Chen Mang Ye DiffM VGen 27 40 0 28 Nov 2022
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 29 16 0 17 Nov 2022
SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory Se Jin Park Minsu Kim Joanna Hong J. Choi Y. Ro CVBM 30 85 0 02 Nov 2022
Thinking Hallucination for Video Captioning Nasib Ullah Partha Pratim Mohanta VLM 36 4 0 28 Sep 2022
GL-RG: Global-Local Representation Granularity for Video Captioning Liqi Yan Qifan Wang Yiming Cui Fuli Feng Xiaojun Quan Xinming Zhang Dongfang Liu 31 59 0 22 May 2022
Support-set based Multi-modal Representation Enhancement for Video Captioning Xiaoya Chen Jingkuan Song Pengpeng Zeng Lianli Gao Hengtao Shen 24 4 0 19 May 2022
Global2Local: A Joint-Hierarchical Attention for Video Captioning Chengpeng Dai Fuhai Chen Xiaoshuai Sun Rongrong Ji QiXiang Ye Yongjian Wu 22 1 0 13 Mar 2022
Consensus Graph Representation Learning for Better Grounded Image Captioning Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu Yueting Zhuang 15 54 0 02 Dec 2021
Relational Graph Learning for Grounded Video Description Generation Wenqiao Zhang Junfeng Fang Siliang Tang Haizhou Shi Haochen Shi Jun Xiao Yueting Zhuang Wenjie Wang 27 33 0 02 Dec 2021
Hierarchical Modular Network for Video Captioning Hanhua Ye Guorong Li Yuankai Qi Shuhui Wang Qingming Huang Ming-Hsuan Yang 27 67 0 24 Nov 2021
Visual-aware Attention Dual-stream Decoder for Video Captioning Zhixin Sun Xian Zhong Shuqin Chen Lin Li Luo Zhong 31 3 0 16 Oct 2021
End-to-End Dense Video Captioning with Parallel Decoding Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo 3DV 47 180 0 17 Aug 2021
Recent Advances and Trends in Multimodal Deep Learning: A Review Jabeen Summaira Xi Li Amin Muhammad Shoib Songyuan Li Abdul Jabbar HAI 20 55 0 24 May 2021
Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning Sangmin Lee Hak Gu Kim Dae Hwi Choi Hyungil Kim Yong Man Ro 31 102 0 02 Apr 2021
Open-book Video Captioning with Retrieve-Copy-Generate Network Ziqi Zhang Zhongang Qi Chun Yuan Ying Shan Bing Li Ying Deng Weiming Hu 31 92 0 09 Mar 2021
The MSR-Video to Text Dataset with Clean Annotations Haoran Chen Jianmin Li Simone Frintrop Xiaolin Hu 24 18 0 12 Feb 2021
Coarse Temporal Attention Network (CTA-Net) for Driver's Activity Recognition Zachary Wharton Ardhendu Behera Yonghuai Liu Nikolaos Bessis 39 35 0 17 Jan 2021
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks Humam Alwassel Silvio Giancola Guohao Li 33 123 0 23 Nov 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 25 101 0 28 Jul 2020
SBAT: Video Captioning with Sparse Boundary-Aware Transformer Tao Jin Siyu Huang Ming Chen Yingming Li Zhongfei Zhang 34 52 0 23 Jul 2020
Learning to Discretely Compose Reasoning Module Networks for Video Captioning Ganchao Tan Daqing Liu Meng Wang Zhengjun Zha LRM 25 73 0 17 Jul 2020
Recurrent Relational Memory Network for Unsupervised Image Captioning Dan Guo Yang Wang Peipei Song Meng Wang GAN 35 40 0 24 Jun 2020
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation Boxiao Pan Haoye Cai De-An Huang Kuan-Hui Lee Adrien Gaidon Ehsan Adeli Juan Carlos Niebles 31 235 0 31 Mar 2020
Multi-modal Dense Video Captioning Vladimir E. Iashin Esa Rahtu 22 165 0 17 Mar 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 37 271 0 26 Feb 2020
Delving Deeper into the Decoder for Video Captioning Haoran Chen Jianmin Li Xiaolin Hu 43 34 0 16 Jan 2020
Video Captioning with Text-based Dynamic Attention and Step-by-Step Learning Huanhou Xiao Jinglun Shi 11 24 0 05 Nov 2019
A Semantics-Assisted Video Captioning Model Trained with Scheduled Sampling Haoran Chen Ke Lin A. Maye Jianmin Li Xiaoling Hu 25 47 0 31 Aug 2019