Show and Tell: A Neural Image Caption Generator

17 November 2014

Papers citing "Show and Tell: A Neural Image Caption Generator"

50 / 2,022 papers shown

Title
Language Guided Local Infiltration for Interactive Image Retrieval Fuxiang Huang Lei Zhang 26 5 0 16 Apr 2023
ImageCaptioner $^2$ : Image Captioner for Image Captioning Bias Amplification Assessment Eslam Mohamed Bakr Pengzhan Sun Erran L. Li Mohamed Elhoseiny 22 6 0 10 Apr 2023
Model-Agnostic Gender Debiased Image Captioning Yusuke Hirota Yuta Nakashima Noa Garcia FaML 35 18 0 07 Apr 2023
Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions Jia-Hong Huang Modar Alfadly Guohao Li M. Worring OOD AAML 44 5 0 06 Apr 2023
Uncurated Image-Text Datasets: Shedding Light on Demographic Bias Noa Garcia Yusuke Hirota Yankun Wu Yuta Nakashima EGVM 43 51 0 06 Apr 2023
Memory Manipulations in Extended Reality Elise Bonnail É. Lecolinet Wen-Jie Tseng Samuel Huron Mark Mcgill Jan Gugenheimer 11 32 0 05 Apr 2023
METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert Tokens Zhanyu Wang Lingqiao Liu Lei Wang Luping Zhou MedIm 13 71 0 05 Apr 2023
Cross-Domain Image Captioning with Discriminative Finetuning Roberto Dessì Michele Bevilacqua Eleonora Gualdoni Nathanaël Carraz Rakotonirina Francesca Franzon Marco Baroni CLIP 27 19 0 04 Apr 2023
Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior Understanding Xiang Zhang Taoyue Wang Xiaotian Li Huiyuan Yang L. Yin 50 9 0 31 Mar 2023
$SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding$ SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding Jae Joong Lee Bedrich Benes ViT 32 0 0 28 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 74 745 0 28 Mar 2023
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation Yaowei Li Bang-ju Yang Xuxin Cheng Zhihong Zhu Hongxiang Li Yuexian Zou 27 31 0 28 Mar 2023
Fine-grained Audible Video Description Xuyang Shen Dong Li Jinxing Zhou Zhen Qin Bowen He ... Yuchao Dai Lingpeng Kong Meng Wang Yu Qiao Yiran Zhong VGen 41 11 0 27 Mar 2023
Equivariant Similarity for Vision-Language Foundation Models Tan Wang Kevin Qinghong Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang CoGe 46 44 0 25 Mar 2023
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation Sara Sarto Manuele Barraco Marcella Cornia Lorenzo Baraldi Rita Cucchiara 21 55 0 21 Mar 2023
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? Chaoning Zhang Chenshuang Zhang Sheng Zheng Yu Qiao Chenghao Li ... Lik-Hang Lee Yang Yang Heng Tao Shen In So Kweon Choong Seon Hong 85 159 0 21 Mar 2023
Multi-modal reward for visual relationships-based image captioning Ali Abedi Hossein Karshenas Peyman Adibi 44 2 0 19 Mar 2023
GNNFormer: A Graph-based Framework for Cytopathology Report Generation Yangqiaoyu Zhou Kai-Lang Yao Wusuo Li MedIm 19 1 0 17 Mar 2023
PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning Yongil Kim Yerin Hwang Hyeongu Yun Seunghyun Yoon Trung Bui Kyomin Jung 27 6 0 15 Mar 2023
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation Bang-ju Yang Fenglin Liu Yuexian Zou Xian Wu Yaowei Wang David A. Clifton 31 9 0 11 Mar 2023
Learning Combinatorial Prompts for Universal Controllable Image Captioning Zhen Wang Jun Xiao Yueting Zhuang Fei Gao Jian Shao Long Chen 60 5 0 11 Mar 2023
Single-branch Network for Multimodal Training M. S. Saeed Shah Nawaz M. H. Khan M. Zaheer Karthik Nandakumar Muhammad Haroon Yousaf Arif Mahmood 11 12 0 10 Mar 2023
ICStega: Image Captioning-based Semantically Controllable Linguistic Steganography Xilong Wang Yaofei Wang Kejiang Chen Jinyang Ding Weiming Zhang Neng H. Yu 6 2 0 10 Mar 2023
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models Chenfei Wu Sheng-Kai Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan MLLM LRM 53 614 0 08 Mar 2023
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing Zequn Zeng Hao Zhang Zhengjue Wang Ruiying Lu Dongsheng Wang Bo Chen BDL DiffM 19 33 0 04 Mar 2023
Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey Kunlin Wang Zi Wang Zhang Li Ang Su Xichao Teng Minhao Liu Qifeng Yu Qifeng Yu ObjD 89 9 0 21 Feb 2023
Multimodal Federated Learning via Contrastive Representation Ensemble Qiying Yu Yang Liu Yimu Wang Ke Xu Jingjing Liu 37 81 0 17 Feb 2023
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions Binyang Song Ruilin Zhou Faez Ahmed AI4CE 37 40 0 14 Feb 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 21 71 0 13 Feb 2023
Mutation-Based Adversarial Attacks on Neural Text Detectors G. Liang Jesus Guerrero I. Alsmadi DeLMO 27 7 0 11 Feb 2023
See Your Heart: Psychological states Interpretation through Visual Creations Likun Yang Xiaokun Feng Xiaotang Chen Shiyu Zhang Kaiqi Huang 13 0 0 11 Feb 2023
Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning Mozhgan Pourkeshavarz Shahabedin Nabavi Mohsen Moghaddam M. Shamsfard 31 4 0 08 Feb 2023
DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning Dongsheng Xu Qingbao Huang Shuang Feng Yiru Cai Feng Shuang Yi Cai ViT VLM 32 1 0 03 Feb 2023
Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications Muhammad Arslan Manzoor S. Albarri Ziting Xian Zaiqiao Meng Preslav Nakov Shangsong Liang AI4TS 34 26 0 01 Feb 2023
UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers Dachuan Shi Chaofan Tao Ying Jin Zhendong Yang Chun Yuan Jiaqi Wang VLM ViT 28 38 0 31 Jan 2023
CHeart: A Conditional Spatio-Temporal Generative Model for Cardiac Anatomy Mengyun Qiao Shuo Wang Huaqi Qiu A. de Marvao D. O’Regan Daniel Rueckert Wenjia Bai MedIm 26 14 0 30 Jan 2023
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens Chen Chen Bowen Zhang Liangliang Cao Jiguang Shen Tom Gunter Albin Madappally Jose Alexander Toshev Jonathon Shlens Ruoming Pang Yinfei Yang VLM 3DV 25 14 0 30 Jan 2023
Style-Aware Contrastive Learning for Multi-Style Image Captioning Yucheng Zhou Guodong Long 25 22 0 26 Jan 2023
Open Problems in Applied Deep Learning M. Raissi AI4CE 42 2 0 26 Jan 2023
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data Dong-Jin Kim Tae-Hyun Oh Jinsoo Choi In So Kweon SSL VLM 27 4 0 26 Jan 2023
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) Rana Adnan Ahmad Muhammad Azhar Hina Sattar 26 10 0 06 Jan 2023
Boosting Neural Networks to Decompile Optimized Binaries Ying Cao Ruigang Liang Kai Chen Peiwei Hu 31 17 0 03 Jan 2023
Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation Jianzong Wu Xiangtai Li Henghui Ding Xia Li Guangliang Cheng Yu Tong Chen Change Loy VLM 89 31 0 02 Jan 2023
Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning Woohyun Kang Jonghwan Mun Sungjun Lee Byungseok Roh VLM 14 18 0 27 Dec 2022
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges R. Zakari Jim Wilson Owusu Hailin Wang Ke Qin Zaharaddeen Karami Lawal Yue-hong Dong LRM 33 16 0 26 Dec 2022
Neural Shape Compiler: A Unified Framework for Transforming between Text, Point Cloud, and Program Tiange Luo Honglak Lee Justin Johnson 36 5 0 25 Dec 2022
Does CLIP Bind Concepts? Probing Compositionality in Large Image Models Martha Lewis Nihal V. Nayak Peilin Yu Qinan Yu Jack Merullo Stephen H. Bach Ellie Pavlick VLM OCL CoGe 21 59 0 20 Dec 2022
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes Ahmed Abdelreheem Kyle Olszewski Hsin-Ying Lee Peter Wonka Panos Achlioptas 3DPC 22 28 0 12 Dec 2022
Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot Manipulation Yifan Zhou Shubham D. Sonawani Mariano Phielipp Simon Stepputtis H. B. Amor LM&Ro 33 27 0 08 Dec 2022
Learning Video Representations from Large Language Models Yue Zhao Ishan Misra Philipp Krahenbuhl Rohit Girdhar VLM AI4TS 28 167 0 08 Dec 2022