Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering

15 September 2021

Ander Salaberria

Gorka Azkune

Oier López de Lacalle

Aitor Soroa Etxabe

Eneko Agirre

ArXiv PDF HTML

Papers citing "Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering"

23 / 23 papers shown

Title
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks Mohammad Saleha Azadeh Tabatabaeib 52 0 0 14 Apr 2025
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 Zhaoyi Li Xiaohan Zhao Dong-Dong Wu Jiacheng Cui Zhiqiang Shen AAML VLM 69 0 0 13 Mar 2025
An Enhanced Large Language Model For Cross Modal Query Understanding System Using DL-KeyBERT Based CAZSSCL-MPGPT Shreya Singh 41 0 0 24 Feb 2025
IIU: Independent Inference Units for Knowledge-based Visual Question Answering Yili Li Jing Yu Keke Gai Gang Xiong 21 0 0 15 Aug 2024
GP-VLS: A general-purpose vision language model for surgery Samuel Schmidgall Joseph Cho C. Zakka W. Hiesinger LM&MA 44 5 0 27 Jul 2024
A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming Pengyuan Zhou Lin Wang Zhi Liu Yanbin Hao Pan Hui Sasu Tarkoma J. Kangasharju VGen 34 26 0 30 Jan 2024
Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models Xiaoyu Yang Lijian Xu Hao Sun Hongsheng Li Shaoting Zhang ObjD 25 4 0 21 Nov 2023
Tackling Vision Language Tasks Through Learning Inner Monologues Diji Yang Kezhen Chen Jinmeng Rao Xiaoyuan Guo Yawen Zhang Jie Yang Y. Zhang MLLM 24 9 0 19 Aug 2023
Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models Jiarui Zhang Mahyar Khayatkhoei P. Chhikara Filip Ilievski 27 1 0 31 May 2023
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge Xingyu Fu Shenmin Zhang Gukyeong Kwon Pramuditha Perera Henghui Zhu ... Zhiguo Wang Vittorio Castelli Patrick K. L. Ng Dan Roth Bing Xiang 27 19 0 30 May 2023
A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering Alireza Salemi Juan Altmayer Pizzorno Hamed Zamani 11 14 0 26 Apr 2023
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges Maria Lymperaiou Giorgos Stamou VLM 26 4 0 04 Mar 2023
A survey on knowledge-enhanced multimodal learning Maria Lymperaiou Giorgos Stamou 33 13 0 19 Nov 2022
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 26 16 0 17 Nov 2022
VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz 26 26 0 24 Oct 2022
LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection Zhuo Chen Yufen Huang Jiaoyan Chen Yuxia Geng Yin Fang Jeff Z. Pan Ningyu Zhang Wen Zhang 23 35 0 26 Jul 2022
Modular and Parameter-Efficient Multimodal Fusion with Prompting Sheng Liang Mengjie Zhao Hinrich Schütze 23 42 0 15 Mar 2022
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering Feng Gao Q. Ping Govind Thattai Aishwarya N. Reganti Yingting Wu Premkumar Natarajan 18 17 0 14 Jan 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 171 402 0 10 Sep 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 257 157 0 02 Jan 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 228 4,460 0 23 Jan 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 410 2,584 0 03 Sep 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,216 0 16 Nov 2016