Show and Tell: A Neural Image Caption Generator

17 November 2014

Papers citing "Show and Tell: A Neural Image Caption Generator"

50 / 2,022 papers shown

Title
Describe Anything in Medical Images Xi Xiao Yunbei Zhang Thanh-Huy Nguyen Ba Thinh Lam Janet Wang ... Xingjian Li Xidong Wang Hao Xu Tianming Liu Min Xu MedIm VLM 46 0 0 09 May 2025
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation Amaan Izhar Nurul Japar Norisma Idris Ting Dang MoE 73 0 0 29 Apr 2025
A Large Vision-Language Model based Environment Perception System for Visually Impaired People Zezhou Chen Zhaoxiang Liu Kai Wang Kohou Wang Shiguo Lian 52 0 0 25 Apr 2025
CAMU: Context Augmentation for Meme Understanding Girish A. Koushik Diptesh Kanojia Helen Treharne Aditya Joshi VLM 98 0 0 24 Apr 2025
Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation Lakshita Agarwal Bindu Verma ViT 24 0 0 23 Apr 2025
Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism Lakshita Agarwal Bindu Verma ViT 29 0 0 23 Apr 2025
FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing Hariseetharam Gunduboina Muhammad Haris Khan Biplab Banerjee VLM 47 0 0 23 Apr 2025
Zero-Shot, But at What Cost? Unveiling the Hidden Overhead of MILS's LLM-CLIP Framework for Image Captioning Yassir Benhammou Alessandro Tiberio Gabriel Trautmann Suman Kalyan MLLM VLM 46 0 0 21 Apr 2025
DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation Sang-Jun Park Keun-Soo Heo Dong-Hee Shin Young-Han Son Ji-Hye Oh Tae-Eui Kam MedIm 39 0 0 16 Apr 2025
DualPrompt-MedCap: A Dual-Prompt Enhanced Approach for Medical Image Captioning Yining Zhao Ali Braytee Mukesh Prasad VLM MedIm 35 0 0 13 Apr 2025
AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions Xing Zi Tengjun Ni Xianjing Fan Xian Tao Jun Li Ali Braytee Mukesh Prasad 23 0 0 13 Apr 2025
Multi-modal and Multi-view Fundus Image Fusion for Retinopathy Diagnosis via Multi-scale Cross-attention and Shifted Window Self-attention Yonghao Huang Leiting Chen Chuan Zhou 19 0 0 12 Apr 2025
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images Boyang Deng Songyou Peng Kyle Genova Gordon Wetzstein Noah Snavely Leonidas J. Guibas Thomas Funkhouser HAI 151 0 0 11 Apr 2025
Moment Quantization for Video Temporal Grounding Xiaolong Sun Le Wang Sanping Zhou Liushuai Shi Kun Xia Mengnan Liu Yabing Wang Gang Hua MQ 31 0 0 03 Apr 2025
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 45 0 0 03 Apr 2025
Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning Maofu Liu Jiahui Liu Xiaokang Zhang 39 0 0 30 Mar 2025
StarFlow: Generating Structured Workflow Outputs From Sketch Images Patrice Bechard Chao Wang Amirhossein Abaskohi Juan A. Rodriguez Christopher Pal David Vazquez Spandana Gella Sai Rajeswar Perouz Taslakian 33 0 0 27 Mar 2025
ImageSet2Text: Describing Sets of Images through Text Piera Riccio F. Galati Kajetan Schweighofer Noa Garcia Nuria Oliver VLM CoGe 77 0 0 25 Mar 2025
Image-to-Text for Medical Reports Using Adaptive Co-Attention and Triple-LSTM Module Yishen Liu Shengda Liu Hudan Pan MedIm 52 0 0 24 Mar 2025
BackMix: Regularizing Open Set Recognition by Removing Underlying Fore-Background Priors Yu Wang Junxian Mu Hongzhi Huang Qilong Wang Pengfei Zhu Q. Hu 57 0 0 22 Mar 2025
DPImageBench: A Unified Benchmark for Differentially Private Image Synthesis Chen Gong Kecen Li Zinan Lin Tianhao Wang 61 3 0 18 Mar 2025
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives Sara Sarto Marcella Cornia Rita Cucchiara 46 0 0 18 Mar 2025
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era Kanzhi Cheng Wenpo Song Jiaxin Fan Zheng Ma Qiushi Sun Fangzhi Xu Chenyang Yan Nuo Chen Jianbing Zhang Jiajun Chen MLLM VLM 55 1 0 16 Mar 2025
Measuring directional bias amplification in image captions using predictability Rahul Nair Bhanu Tokas Neel Shah Hannah Kerner 51 0 0 10 Mar 2025
A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning Qing Zhou Tao Yang Junyu Gao W. Ni Junzheng Wu Qi Wang 50 0 0 06 Mar 2025
Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning Victor Sebastian Martinez Pozos Ivan Vladimir Meza Ruiz 44 0 0 06 Mar 2025
Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance Jiayi Zhao Fei Teng Kai Luo Guoqiang Zhao Zehan Li Xu Zheng Kailun Yang VLM 79 4 0 04 Mar 2025
Abn-BLIP: Abnormality-aligned Bootstrapping Language-Image Pre-training for Pulmonary Embolism Diagnosis and Report Generation from CTPA Z. Zhong Yuli Wang Lulu Bi Zhuoqi Ma S. H. Ahn ... Webster Stayman Todd M. Kolb I. Kamel Harrison X. Bai Zhicheng Jiao LM&MA 66 0 0 03 Mar 2025
AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language Pankaj Choudhury Yogesh Aggarwal Prabhanjan Jadhav Prithwijit Guha Sukumar Nandi 79 0 0 03 Mar 2025
Beyond RNNs: Benchmarking Attention-Based Image Captioning Models Hemanth Teja Yanambakkam Rahul Chinthala 44 0 0 26 Feb 2025
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning Nilay Yilmaz Maitreya Patel Yiran Luo Tejas Gokhale Chitta Baral Suren Jayasuriya Yezhou Yang LRM 38 0 0 25 Feb 2025
Omnidirectional Image Quality Captioning: A Large-scale Database and A New Model Jiebin Yan Ziwen Tan Yuming Fang Junjie Chen Wenhui Jiang Zhou Wang 134 2 0 24 Feb 2025
Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search Hengzhu Tang Zefeng Zhang Zhiping Li Zhenyu Zhang Xing Wu Li Gao Suqi Cheng Dawei Yin 62 1 0 09 Feb 2025
PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures Shivalika Singh Nakul Sharma Manish Gupta Anand Mishra 55 1 0 28 Jan 2025
StreamingRAG: Real-time Contextual Retrieval and Generation Framework Murugan Sankaradas Ravi K.Rajendran Srimat T.Chakradhar 44 1 0 23 Jan 2025
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment Difei Gu Yunhe Gao Yang Zhou Mu Zhou Dimitris N. Metaxas LM&MA 53 2 0 13 Jan 2025
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering Anupam Pandey Deepjyoti Bodo Arpan Phukan Asif Ekbal 41 0 0 13 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 88 11 0 06 Jan 2025
GIT-CXR: End-to-End Transformer for Chest X-Ray Report Generation Iustin Sîrbu Iulia-Renata Sîrbu Jasmina Bogojeska Traian Rebedea MedIm ViT LM&MA 36 0 0 05 Jan 2025
Classifier-Guided Captioning Across Modalities Ariel Shaulov Tal Shaharabany E. Shaar Gal Chechik Lior Wolf 33 0 0 03 Jan 2025
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning Jianjie Luo Jingwen Chen Yehao Li Yingwei Pan Jianlin Feng Hongyang Chao Ting Yao DiffM VLM 53 0 0 03 Jan 2025
Out-of-distribution generalization via composition: a lens through induction heads in Transformers Jiajun Song Zhuoyan Xu Yiqiao Zhong 88 4 0 31 Dec 2024
Reframing Image Difference Captioning with BLIP2IDC and Synthetic Augmentation Gautier Evennou Antoine Chaffin Vivien Chappelier Ewa Kijak DiffM 79 0 0 20 Dec 2024
A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future Shilin Sun Wenbin An Feng Tian Fang Nan Qidong Liu Xiaozhong Liu N. Shah Ping Chen 96 2 0 18 Dec 2024
Automated Image Captioning with CNNs and Transformers Joshua Adrian Cahyono Jeremy Nathan Jusuf VLM ViT 80 0 0 13 Dec 2024
Automated Medical Report Generation for ECG Data: Bridging Medical Text and Signal Processing with Deep Learning Amnon Bleich A. Linnemann B. Diem Tim Conrad MedIm 70 2 0 05 Dec 2024
Medical Multimodal Foundation Models in Clinical Diagnosis and Treatment: Applications, Challenges, and Future Directions Kai Sun Siyan Xue F. Sun Haoran Sun Yu-Juan Luo ... Xinzhou Wang Lei Yang Shuo Jin Jun Yan Jiahong Dong AI4CE 76 2 0 03 Dec 2024
VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis Donggoo Kang Dasol Jeong Hyunmin Lee Sangwoo Park Hasil Park Sunkyu Kwon Yeongjoon Kim Joonki Paik MLLM VLM 79 0 0 27 Nov 2024
GeoFormer: A Multi-Polygon Segmentation Transformer Maxim Khomiakov Michael Riis Andersen J. Frellsen 73 0 0 25 Nov 2024
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation Tiancheng Gu Kaicheng Yang Xiang An Ziyong Feng Dongnan Liu Weidong Cai 74 1 0 20 Nov 2024