Enhancing image captioning with depth information using a Transformer-based framework

24 July 2023

Papers citing "Enhancing image captioning with depth information using a Transformer-based framework"

5 / 5 papers shown

Title
Language-Depth Navigated Thermal and Visible Image Fusion Jinchang Zhang Zijun Li Guoyu Lu MDE 69 1 0 11 Mar 2025
Predicting Winning Captions for Weekly New Yorker Comics Stanley Cao Sonny Young ViT VLM 45 1 0 12 Jul 2024
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 314 7,457 0 11 Nov 2021
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 200 434 0 27 Mar 2018
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 85 1,442 0 06 Dec 2016