Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning

Geometry Attention Transformer with Position-aware LSTMs for Image Captioning

1 October 2021

Luping Ji

Papers citing "Geometry Attention Transformer with Position-aware LSTMs for Image Captioning"

6 / 6 papers shown

Title
Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism Lakshita Agarwal Bindu Verma ViT 29 0 0 23 Apr 2025
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 21 71 0 13 Feb 2023
How to Describe Images in a More Funny Way? Towards a Modular Approach to Cross-Modal Sarcasm Generation Jie Ruan Yue Wu Xiaojun Wan Yuesheng Zhu 29 1 0 20 Nov 2022
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 135 189 0 19 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 85 1,442 0 06 Dec 2016