Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

9 May 2022

Papers citing "Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning"

11 / 11 papers shown

Title
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 45 0 0 03 Apr 2025
MeaCap: Memory-Augmented Zero-shot Image Captioning Zequn Zeng Yan Xie Hao Zhang Chiyu Chen Zhengjue Wang Boli Chen VLM 39 14 0 06 Mar 2024
HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning Chia-Wen Kuo Z. Kira 34 21 0 25 May 2023
A request for clarity over the End of Sequence token in the Self-Critical Sequence Training J. Hu Roberto Cavicchioli Alessandro Capotondi 32 6 0 20 May 2023
CLIP-GCD: Simple Language Guided Generalized Category Discovery Rabah Ouldnoughi Chia-Wen Kuo Z. Kira VLM 29 14 0 17 May 2023
KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation Xiangyang Li Zihan Wang Jiahao Yang Yaowei Wang Shuqiang Jiang LM&Ro 21 38 0 28 Mar 2023
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing Zequn Zeng Hao Zhang Zhengjue Wang Ruiying Lu Dongsheng Wang Bo Chen BDL DiffM 19 33 0 04 Mar 2023
Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue Holy Lovenia Samuel Cahyawijaya Pascale Fung 16 1 0 28 Feb 2023
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network Jiayi Ji Yunpeng Luo Xiaoshuai Sun Fuhai Chen Gen Luo Yongjian Wu Yue Gao Rongrong Ji ViT 51 170 0 13 Dec 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 273 3,375 0 09 Mar 2020
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 85 1,442 0 06 Dec 2016