Show and Tell: A Neural Image Caption Generator

17 November 2014

Papers citing "Show and Tell: A Neural Image Caption Generator"

50 / 2,022 papers shown

Title
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities Md Farhan Ishmam Md Sakib Hossain Shovon M. F. Mridha Nilanjan Dey 46 36 0 01 Nov 2023
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis Yingshu Li Yunyi Liu Zhanyu Wang Xinyu Liang Lei Wang Lingqiao Liu Leyang Cui Zhaopeng Tu Longyue Wang Luping Zhou ELM LM&MA 37 36 0 31 Oct 2023
Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning Yasaman Etesam Özge Nilay Yalçin Chuxuan Zhang Angelica Lim 35 2 0 30 Oct 2023
Style-Aware Radiology Report Generation with RadGraph and Few-Shot Prompting Benjamin Yan Ruochen Liu David E. Kuo Subathra Adithan Eduardo Pontes Reis ... V. Venugopal Chloe P. O'Connell Agustina Saenz Pranav Rajpurkar Michael Moor MedIm 21 26 0 26 Oct 2023
Cross-modal Active Complementary Learning with Self-refining Correspondence Yang Qin Yuan Sun Dezhong Peng Qiufeng Wang Xiaocui Peng Peng Hu 31 18 0 26 Oct 2023
M2C: Towards Automatic Multimodal Manga Complement Hongcheng Guo Boyang Wang Jiaqi Bai Jiaheng Liu Jian Yang Zhoujun Li 33 10 0 26 Oct 2023
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation Yinjie Lei Zixuan Wang Feng Chen Guoqing Wang Peng Wang Yang Yang 37 10 0 24 Oct 2023
RECAP: Towards Precise Radiology Report Generation via Dynamic Disease Progression Reasoning Wenjun Hou Yi Cheng Kaishuai Xu Wenjie Li Jiangming Liu 29 15 0 21 Oct 2023
Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models Shawn Shan Wenxin Ding Josephine Passananti Stanley Wu Haitao Zheng Ben Y. Zhao SILM DiffM 31 44 0 20 Oct 2023
PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining Kecen Li Chen Gong Zhixiang Li Yuzhong Zhao Xinwen Hou Tianhao Wang 33 10 0 19 Oct 2023
EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset Hang Yin Pinren Lu Ziang Li Bin Sun Kan Li 42 0 0 17 Oct 2023
Few-shot Action Recognition with Captioning Foundation Models Xiang Wang Shiwei Zhang Hangjie Yuan Yingya Zhang Changxin Gao Deli Zhao Nong Sang VLM 32 7 0 16 Oct 2023
Bounding and Filling: A Fast and Flexible Framework for Image Captioning Zheng Ma Changxin Wang Bo Huang Zi-Yue Zhu Jianbing Zhang 31 1 0 15 Oct 2023
Visual Question Generation in Bengali Mahmud Hasan Labiba Islam J. Ruma T. Mayeesha Rashedur Rahman 24 1 0 12 Oct 2023
A Comparative Study of Pre-trained CNNs and GRU-Based Attention for Image Caption Generation Rashid Khan Bingding Huang Haseeb Hassan Asim Zaman Z. Ye 31 2 0 11 Oct 2023
Module-wise Adaptive Distillation for Multimodality Foundation Models Chen Liang Jiahui Yu Ming-Hsuan Yang Matthew A. Brown Huayu Chen Tuo Zhao Boqing Gong Tianyi Zhou 19 10 0 06 Oct 2023
Envisioning Narrative Intelligence: A Creative Visual Storytelling Anthology Brett A. Halperin S. Lukin CoGe 68 24 0 06 Oct 2023
Constructing Image-Text Pair Dataset from Books Yamato Okamoto Haruto Toyonaga Yoshihisa Ijiri Hirokatsu Kataoka 60 2 0 03 Oct 2023
YOLOR-Based Multi-Task Learning Hung-Shuo Chang Chien-Yao Wang Hang Yan Yukun Zhu Hongpeng Liao MoE VLM 27 17 0 29 Sep 2023
Social Media Fashion Knowledge Extraction as Captioning Yifei Yuan Wenxuan Zhang Yang Deng Wai Lam 19 1 0 28 Sep 2023
BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile Screenshot Captioning Ching-Yu Chiang I-Hua Chang Shih-Wei Liao 53 1 0 26 Sep 2023
A Survey on Image-text Multimodal Models Ruifeng Guo Jingxuan Wei Linzhuang Sun Khai Le-Duc Guiyong Chang Dawei Liu Sibo Zhang Zhengbing Yao Mingjun Xu Liping Bu VLM 31 5 0 23 Sep 2023
Contextual Emotion Estimation from Image Captions V. Yang Archita Srivastava Yasaman Etesam Chuxuan Zhang Angelica Lim 34 3 0 22 Sep 2023
R2GenGPT: Radiology Report Generation with Frozen LLMs Zhanyu Wang Lingqiao Liu Lei Wang Luping Zhou MedIm LM&MA VLM 22 64 0 18 Sep 2023
PoseFix: Correcting 3D Human Poses with Natural Language Ginger Delmas Philippe Weinzaepfel Francesc Moreno-Noguer Grégory Rogez 30 22 0 15 Sep 2023
SwitchGPT: Adapting Large Language Models for Non-Text Outputs Xinyu Wang Bohan Zhuang Qi Wu MLLM 47 3 0 14 Sep 2023
RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of Language Models Yufei Li Zexin Li Wei Yang Cong Liu 32 6 0 12 Sep 2023
Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning Enna Sachdeva Nakul Agarwal Suhas Chundi Sean Roelofs Jiachen Li Mykel Kochenderfer Chiho Choi Behzad Dariush 33 47 0 12 Sep 2023
Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation Yunhao Ge Lyne Tchapmi Brian Nlong Zhao Neel Joshi Laurent Itti Vibhav Vineet DiffM 35 14 0 12 Sep 2023
Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image Captioning Guisheng Liu Yi Li Zhengcong Fei Haiyan Fu Xiangyang Luo Yanqing Guo VLM DiffM 25 7 0 10 Sep 2023
Modeling Recommender Ecosystems: Research Challenges at the Intersection of Mechanism Design, Reinforcement Learning and Generative Models Craig Boutilier Martin Mladenov Guy Tennenholtz OffRL CML 44 8 0 08 Sep 2023
C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap William Theisen Walter J. Scheirer CLIP VLM 35 2 0 06 Sep 2023
Exchanging-based Multimodal Fusion with Transformer Renyu Zhu Chengcheng Han Yong Qian Qiushi Sun Xiang Li Ming Gao Xuezhi Cao Yunsen Xian 40 2 0 05 Sep 2023
CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding Etienne Labbé Thomas Pellegrini J. Pinquier 25 11 0 01 Sep 2023
Can Prompt Learning Benefit Radiology Report Generation? Jun Wang Lixing Zhu A. Bhalerao Yulan He MedIm 44 2 0 30 Aug 2023
FIRE: Food Image to REcipe generation P. Chhikara Dhiraj Chaurasia Yifan Jiang Omkar Masur Filip Ilievski 34 23 0 28 Aug 2023
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning Manuele Barraco Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 55 19 0 23 Aug 2023
GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised Learning Mainak Singha Ankit Jha Biplab Banerjee VLM 39 4 0 22 Aug 2023
Visually-Aware Context Modeling for News Image Captioning Tingyu Qu Tinne Tuytelaars Marie-Francine Moens VLM 19 8 0 16 Aug 2023
Automated Sizing and Training of Efficient Deep Autoencoders using Second Order Algorithms Kanishka Tyagi Chinmay Rane M. Manry 16 1 0 11 Aug 2023
IIHT: Medical Report Generation with Image-to-Indicator Hierarchical Transformer Keqi Fan Xiaohao Cai M. Niranjan MedIm ViT 11 3 0 10 Aug 2023
Asynchronous Evolution of Deep Neural Network Architectures J. Liang H. Shahrzad Risto Miikkulainen 28 0 0 08 Aug 2023
Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods Ya Jing Xuelin Zhu Xingbin Liu Qie Sima Taozheng Yang Yunhai Feng Tao Kong LM&Ro 45 16 0 07 Aug 2023
Improving Generalization of Image Captioning with Unsupervised Prompt Learning Hongchen Wei Zhenzhong Chen VLM 35 3 0 05 Aug 2023
A Comprehensive Analysis of Real-World Image Captioning and Scene Identification Sai Suprabhanu Nallapaneni Subrahmanyam Konakanchi 30 2 0 05 Aug 2023
Reverse Stable Diffusion: What prompt was used to generate this image? Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah VLM DiffM 42 6 0 02 Aug 2023
ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora Ka Leong Cheng Zheng Ma Shi Zong Jianbing Zhang Xinyu Dai Jiajun Chen DiffM 27 3 0 02 Aug 2023
Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model Ka Leong Cheng Wenpo Song Zheng Ma Wenhao Zhu Zi-Yue Zhu Jianbing Zhang CLIP VLM 27 10 0 02 Aug 2023
Guiding Image Captioning Models Toward More Specific Captions Simon Kornblith Lala Li Zirui Wang Thao Nguyen 32 15 0 31 Jul 2023
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis Zihan Zhang Richard Liu Kfir Aberman Rana Hanocka DiffM 37 26 0 27 Jul 2023