Semantic Compositional Networks for Visual Captioning

23 November 2016

Chuang Gan

Lawrence Carin

Li Deng

CoGe

ArXiv PDF HTML

Papers citing "Semantic Compositional Networks for Visual Captioning"

50 / 57 papers shown

Title
Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism Lakshita Agarwal Bindu Verma ViT 29 0 0 23 Apr 2025
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian Willy Fitra Hendria 29 2 0 20 Jun 2023
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing Zequn Zeng Hao Zhang Zhengjue Wang Ruiying Lu Dongsheng Wang Bo Chen BDL DiffM 24 33 0 04 Mar 2023
Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning Mozhgan Pourkeshavarz Shahabedin Nabavi Mohsen Moghaddam M. Shamsfard 31 4 0 08 Feb 2023
IC3: Image Captioning by Committee Consensus David M. Chan Austin Myers Sudheendra Vijayanarasimhan David A. Ross John F. Canny 32 17 0 02 Feb 2023
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) Rana Adnan Ahmad Muhammad Azhar Hina Sattar 26 10 0 06 Jan 2023
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 24 46 0 19 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 40 10 0 04 Oct 2022
Graph Neural Network and Spatiotemporal Transformer Attention for 3D Video Object Detection from Point Clouds Junbo Yin Jianbing Shen Xin Gao David J. Crandall Ruigang Yang 3DPC ViT 38 59 0 26 Jul 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 25 89 0 31 Jan 2022
A Survey of Natural Language Generation Chenhe Dong Hai-Tao Zheng Haifan Gong Mengzhao Chen Junxin Li Ying Shen Min Yang 3DV 27 43 0 22 Dec 2021
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 27 86 0 09 Dec 2021
R $^3$ Net:Relation-embedded Representation Reconstruction Network for Change Captioning Yunbin Tu Liang Li C. Yan Shengxiang Gao Zhengtao Yu 35 22 0 20 Oct 2021
Chest ImaGenome Dataset for Clinical Reasoning Joy T. Wu Nkechinyere N. Agu Ismini Lourentzou Arjun Sharma J. Paguio ... William Mitchell Satyananda Kashyap Andrea Giovannini Leo Anthony Celi Mehdi Moradi 21 65 0 31 Jul 2021
Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang Yueting Zhuang 27 28 0 26 Jul 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 67 254 0 14 Jul 2021
Towards Accurate Text-based Image Captioning with Content Diversity Exploration Guanghui Xu Shuaicheng Niu Mingkui Tan Yucheng Luo Qing Du Qi Wu DiffM 22 56 0 23 Apr 2021
The MSR-Video to Text Dataset with Clean Annotations Haoran Chen Jianmin Li Simone Frintrop Xiaolin Hu 24 18 0 12 Feb 2021
Teacher-Critical Training Strategies for Image Captioning Yiqing Huang Jiansheng Chen VLM 29 8 0 30 Sep 2020
In-Home Daily-Life Captioning Using Radio Signals Lijie Fan Tianhong Li Yuan. Yuan Dina Katabi 40 47 0 25 Aug 2020
SBAT: Video Captioning with Sparse Boundary-Aware Transformer Tao Jin Siyu Huang Ming Chen Yingming Li Zhongfei Zhang 32 52 0 23 Jul 2020
Improving Image Captioning with Better Use of Captions Zhan Shi Xu Zhou Xipeng Qiu Xiao-Dan Zhu 30 122 0 21 Jun 2020
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation Mingjie Li Fuyu Wang Xiaojun Chang Xiaodan Liang MedIm 29 101 0 06 Jun 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 46 493 0 01 May 2020
Multi-modal Dense Video Captioning Vladimir E. Iashin Esa Rahtu 22 164 0 17 Mar 2020
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning Zhiyuan Fang Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang 23 60 0 11 Mar 2020
Better Captioning with Sequence-Level Exploration Jia Chen Qin Jin 37 12 0 08 Mar 2020
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs Shizhe Chen Qin Jin Peng Wang Qi Wu DiffM 36 215 0 01 Mar 2020
Gaussian Smoothen Semantic Features (GSSF) -- Exploring the Linguistic Aspects of Visual Captioning in Indian Languages (Bengali) Using MSCOCO Framework C. Sur 27 7 0 16 Feb 2020
MRRC: Multiple Role Representation Crossover Interpretation for Image Captioning With R-CNN Feature Distribution Composition (FDC) C. Sur 25 16 0 15 Feb 2020
Delving Deeper into the Decoder for Video Captioning Haoran Chen Jianmin Li Xiaolin Hu 43 34 0 16 Jan 2020
Exploring Overall Contextual Information for Image Captioning in Human-Like Cognitive Style Hongwei Ge Zehang Yan Kai Zhang Mingde Zhao Liang Sun 30 24 0 15 Oct 2019
A Semantics-Assisted Video Captioning Model Trained with Scheduled Sampling Haoran Chen Ke Lin A. Maye Jianmin Li Xiaoling Hu 25 47 0 31 Aug 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 24 823 0 19 Aug 2019
Relational Reasoning using Prior Knowledge for Visual Captioning Jingyi Hou Xinxiao Wu Yayun Qi Wentian Zhao Jiebo Luo Yunde Jia 17 14 0 04 Jun 2019
Learning to Collocate Neural Modules for Image Captioning Xu Yang Hanwang Zhang Jianfei Cai 25 77 0 18 Apr 2019
End-to-End Video Captioning Silvio Olivastri Gurkirt Singh Fabio Cuzzolin 18 18 0 04 Apr 2019
Context and Attribute Grounded Dense Captioning Guojun Yin Lu Sheng Bin Liu Nenghai Yu Xiaogang Wang Jing Shao 16 75 0 02 Apr 2019
Describing like humans: on diversity in image captioning Qingzhong Wang Antoni B. Chan 27 98 0 28 Mar 2019
Boosted Attention: Leveraging Human Attention for Image Captioning Shi Chen Qi Zhao 24 47 0 18 Mar 2019
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning Nayyer Aafaq Naveed Akhtar Wei Liu Syed Zulqarnain Gilani Ajmal Mian 31 204 0 27 Feb 2019
Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos Dongliang He Xiang Zhao Jizhou Huang Fu Li Xiao-Chang Liu Shilei Wen 22 152 0 21 Jan 2019
A Comprehensive Survey of Deep Learning for Image Captioning Md Zakir Hossain Ferdous Sohel M. Shiratuddin Hamid Laga VLM 3DV 45 761 0 06 Oct 2018
simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions Fenglin Liu Xuancheng Ren Yuanxin Liu Houfeng Wang Xu Sun 98 65 0 27 Aug 2018
Distinctive-attribute Extraction for Image Captioning Boeun Kim Young Han Lee Hyedong Jung Choongsang Cho 22 6 0 25 Jul 2018
Dynamic Multimodal Instance Segmentation guided by natural language queries Edgar Margffoy-Tuay Juan C. Pérez Emilio Botero Pablo Arbelaez 27 170 0 06 Jul 2018
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 142 496 0 24 Apr 2018
Object Counts! Bringing Explicit Detections Back into Image Captioning Josiah Wang Pranava Madhyastha Lucia Specia ObjD 19 37 0 23 Apr 2018
Attentive Tensor Product Learning Qiuyuan Huang Li Deng D. Wu Chang Liu Xiaodong He 27 23 0 20 Feb 2018
TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays Xiaosong Wang Yifan Peng Le Lu Zhiyong Lu Ronald M. Summers MedIm 38 462 0 12 Jan 2018