From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video Captioning

8 August 2017

Jingkuan Song

Yuyu Guo

Lianli Gao

Xuelong Li

Alan Hanjalic

Heng Tao Shen

ArXiv PDF HTML

Papers citing "From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video Captioning"

30 / 30 papers shown

Title
EVC-MF: End-to-end Video Captioning Network with Multi-scale Features Tian-Zi Niu Zhen-Duo Chen Xin Luo Xin-Shun Xu 26 0 0 22 Oct 2024
How to Understand Named Entities: Using Common Sense for News Captioning Ning Xu Yanhui Wang Tingting Zhang Hongshuo Tian Mohan Kankanhalli An-An Liu 40 0 0 11 Mar 2024
Video ReCap: Recursive Captioning of Hour-Long Videos Md. Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius VGen VLM 35 47 0 20 Feb 2024
SEM-POS: Grammatically and Semantically Correct Video Captioning Asmar Nadeem A. Hilton R. Dawes Graham A. Thomas A. Mustafa 27 8 0 26 Mar 2023
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 29 16 0 17 Nov 2022
Hybrid Reinforced Medical Report Generation with M-Linear Attention and Repetition Penalty Wenting Xu Zhenghua Xu Junyang Chen Chang Qi Thomas Lukasiewicz MedIm 23 7 0 14 Oct 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 43 68 0 02 Jun 2022
Video Captioning: a comparative review of where we are and which could be the route Daniela Moctezuma Tania A. Ramirez-delreal Guillermo Ruiz Othón González-Chávez 27 11 0 12 Apr 2022
NeuroView-RNN: It's About Time C. Barberan Sina Alemohammad Naiming Liu Randall Balestriero Richard G. Baraniuk AI4TS HAI 41 2 0 23 Feb 2022
One-shot Scene Graph Generation Yuyu Guo Jingkuan Song Lianli Gao Heng Tao Shen 35 29 0 22 Feb 2022
Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions Yang Wu Dingheng Wang Xiaotong Lu Fan Yang Guoqi Li W. Dong Jianbo Shi 29 18 0 30 Aug 2021
A Comprehensive Review of the Video-to-Text Problem Jesus Perez-Martin B. Bustos S. Guimarães I. Sipiran Jorge A. Pérez Grethel Coello Said 13 17 0 27 Mar 2021
The Role of the Input in Natural Language Video Description S. Cascianelli G. Costante Alessandro Devo Thomas Alessandro Ciarfuglia P. Valigi M. L. Fravolini 15 5 0 09 Feb 2021
Guidance Module Network for Video Captioning Xiao Zhang Chunsheng Liu F. Chang 21 4 0 20 Dec 2020
Universal Weighting Metric Learning for Cross-Modal Matching Jiwei Wei Xing Xu Yang Yang Yanli Ji Zheng Wang Heng Tao Shen 16 87 0 07 Oct 2020
Unsupervised Online Anomaly Detection On Irregularly Sampled Or Missing Valued Time-Series Data Using LSTM Networks Oguzhan Karaahmetoglu Fatih Ilhan Ismail Balaban Suleyman Serdar Kozat AI4TS 10 6 0 25 May 2020
Towards Embodied Scene Description Sinan Tan Huaping Liu Di Guo Xinyu Zhang F. Sun LM&Ro 10 9 0 30 Apr 2020
Learning Selective Sensor Fusion for States Estimation Changhao Chen Stefano Rosa Chris Xiaoxuan Lu Bing Wang Niki Trigoni Andrew Markham 22 20 0 30 Dec 2019
Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models Menatallh Hammad May Hammad Mohamed Elshenawy 24 2 0 22 Nov 2019
Video Captioning with Text-based Dynamic Attention and Step-by-Step Learning Huanhou Xiao Jinglun Shi 11 24 0 05 Nov 2019
Diverse Video Captioning Through Latent Variable Expansion Huanhou Xiao Jinglun Shi DiffM 35 15 0 26 Oct 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 27 38 0 12 Aug 2019
Adaptive Exploration for Unsupervised Person Re-Identification Yuhang Ding Hehe Fan Mingliang Xu Yezhou Yang OOD 21 130 0 09 Jul 2019
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning Junchao Zhang Yuxin Peng 18 170 0 11 Jun 2019
Hierarchical LSTMs with Adaptive Attention for Visual Captioning Jingkuan Song Xiangpeng Li Lianli Gao Heng Tao Shen 23 221 0 26 Dec 2018
The Gap of Semantic Parsing: A Survey on Automatic Math Word Problem Solvers Dongxiang Zhang Lei Wang Nuo Xu B. Dai Heng Tao Shen ReLM AIMat 45 126 0 22 Aug 2018
Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction Xiangxi Shi Jianfei Cai Jiuxiang Gu Chenyu You 21 18 0 08 Jul 2018
COCO-CN for Cross-Lingual Image Tagging, Captioning and Retrieval Xirong Li Chaoxi Xu Xiaoxu Wang Weiyu Lan Zhengxiong Jia Gang Yang Jieping Xu 22 149 0 22 May 2018
Less Is More: Picking Informative Frames for Video Captioning Yangyu Chen Shuhui Wang Feiyu Xiong Qingming Huang 14 200 0 05 Mar 2018
Self-Supervised Video Hashing with Hierarchical Binary Auto-encoder Jingkuan Song Hanwang Zhang Xiangpeng Li Lianli Gao Ming Wang Richang Hong 19 245 0 07 Feb 2018