Show and Tell: A Neural Image Caption Generator

17 November 2014

Papers citing "Show and Tell: A Neural Image Caption Generator"

50 / 2,022 papers shown

Title
EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder Xiaoshui Huang Zhou Huang Shengjia Li Wentao Qu Tong He Yuenan Hou Yifan Zuo Wanli Ouyang 13 11 0 08 Dec 2022
Switching to Discriminative Image Captioning by Relieving a Bottleneck of Reinforcement Learning Ukyo Honda Taro Watanabe Yuji Matsumoto 13 9 0 06 Dec 2022
Semantic-Conditional Diffusion Networks for Image Captioning Jianjie Luo Yehao Li Yingwei Pan Ting Yao Jianlin Feng Hongyang Chao Tao Mei DiffM 30 62 0 06 Dec 2022
Controllable Image Captioning via Prompting Ning Wang Jiahao Xie Jihao Wu Mingbo Jia Linlin Li 22 23 0 04 Dec 2022
Focus! Relevant and Sufficient Context Selection for News Image Captioning Mingyang Zhou Grace Luo Anna Rohrbach Zhou Yu CLIP 27 13 0 01 Dec 2022
Multimodal Query-guided Object Localization Aditay Tripathi Rajath R Dani Anand Mishra Anirban Chakraborty 29 0 0 01 Dec 2022
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models Zhuowan Li Cihang Xie Benjamin Van Durme Alan Yuille VLM SSL 28 2 0 01 Dec 2022
Uncertainty-Aware Image Captioning Zhengcong Fei Mingyuan Fan Li Zhu Junshi Huang Xiaoming Wei Xiaolin K. Wei UQLM 18 10 0 30 Nov 2022
Exploiting Category Names for Few-Shot Classification with Vision-Language Models Taihong Xiao Zirui Wang Liangliang Cao Jiahui Yu Shengyang Dai Ming Yang VLM MLLM 36 5 0 29 Nov 2022
CLIP2GAN: Towards Bridging Text with the Latent Space of GANs Yixuan Wang Wen-gang Zhou Jianmin Bao Weilun Wang Li Li Houqiang Li GAN CLIP 33 5 0 28 Nov 2022
CLID: Controlled-Length Image Descriptions with Limited Data Elad Hirsch A. Tal VLM 3DV 22 4 0 27 Nov 2022
Deep representation learning: Fundamentals, Perspectives, Applications, and Open Challenges K. T. Baghaei Amirreza Payandeh Pooya Fayyazsanavi Shahram Rahimi Zhiqian Chen Somayeh Bakhtiari Ramezani FaML AI4TS 38 6 0 27 Nov 2022
Overcoming Catastrophic Forgetting by XAI Giang Nguyen 18 0 0 25 Nov 2022
Aesthetically Relevant Image Captioning Zhipeng Zhong Fei Zhou Guoping Qiu 39 9 0 25 Nov 2022
Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors R. Burgert Kanchana Ranasinghe Xiang Li Michael S. Ryoo DiffM VLM 34 37 0 23 Nov 2022
Exploring Discrete Diffusion Models for Image Captioning Zixin Zhu Yixuan Wei Jianfeng Wang Zhe Gan Zheng-Wei Zhang Le Wang G. Hua Lijuan Wang Zicheng Liu Han Hu DiffM VLM 31 17 0 21 Nov 2022
STGlow: A Flow-based Generative Framework with Dual Graphormer for Pedestrian Trajectory Prediction Rongqin Liang Yuanman Li Jiantao Zhou Xia Li 39 12 0 21 Nov 2022
How to Describe Images in a More Funny Way? Towards a Modular Approach to Cross-Modal Sarcasm Generation Jie Ruan Yue Wu Xiaojun Wan Yuesheng Zhu 29 1 0 20 Nov 2022
CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge Linli Yao Wei Chen Qin Jin VLM 30 10 0 17 Nov 2022
Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment Junyan Wang Yi Zhang Ming Yan Ji Zhang Jitao Sang VLM 31 9 0 14 Nov 2022
DeltaNet:Conditional Medical Report Generation for COVID-19 Diagnosis Xian Wu Shuxin Yang Zhaopeng Qiu Shen Ge Yangtian Yan Xingwang Wu Yefeng Zheng S. Kevin Zhou Li Xiao MedIm 15 20 0 12 Nov 2022
Deep Learning Generates Synthetic Cancer Histology for Explainability and Education J. Dolezal Rachelle Wolk Hanna M. Hieromnimon Frederick M. Howard Andrew Srisuwananukorn ... A. Husain Huihua Li Robert L. Grossman N. Cipriani A. Pearson MedIm 33 40 0 12 Nov 2022
VieCap4H-VLSP 2021: ObjectAoA-Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning Nghia Hieu Nguyen Duong T.D. Vo Minh-Quan Ha ViT 32 1 0 10 Nov 2022
CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering Maitreya Patel Tejas Gokhale Chitta Baral Yezhou Yang 49 9 0 07 Nov 2022
Spatially Selective Deep Non-linear Filters for Speaker Extraction Kristina Tesch Timo Gerkmann 26 17 0 04 Nov 2022
OSIC: A New One-Stage Image Captioner Coined Bo Wang Zhao Zhang Ming Zhao Xiaojie Jin Mingliang Xu Meng Wang VLM 31 3 0 04 Nov 2022
PoseScript: Linking 3D Human Poses and Natural Language Ginger Delmas Philippe Weinzaepfel Thomas Lucas Francesc Moreno-Noguer Grégory Rogez 3DH 38 1 0 21 Oct 2022
Mathematical Justification of Hard Negative Mining via Isometric Approximation Theorem Albert Xu Jhih-Yi Hsieh Bhaskar Vundurthy Eliana Cohen Howie Choset Lu Li 14 1 0 20 Oct 2022
Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation Yu Zhao Jianguo Wei Zhichao Lin Yueheng Sun Meishan Zhang Hao Fei 25 16 0 20 Oct 2022
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 24 46 0 19 Oct 2022
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation Hongcheng Guo Jiaheng Liu Haoyang Huang Jian Yang Zhoujun Li Dongdong Zhang Zheng Cui Furu Wei 37 22 0 19 Oct 2022
Probing Cross-modal Semantics Alignment Capability from the Textual Perspective Zheng Ma Shi Zong Mianzhi Pan Jianbing Zhang Shujian Huang Xinyu Dai Jiajun Chen 30 4 0 18 Oct 2022
Weakly Supervised Face Naming with Symmetry-Enhanced Contrastive Loss Tingyu Qu Tinne Tuytelaars Marie-Francine Moens CVBM 21 4 0 17 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 35 16 0 05 Oct 2022
Affection: Learning Affective Explanations for Real-World Visual Data Panos Achlioptas M. Ovsjanikov Leonidas J. Guibas Sergey Tulyakov 83 11 0 04 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 40 10 0 04 Oct 2022
Human-in-the-loop Robotic Grasping using BERT Scene Representation Yaoxian Song Penglei Sun Pengfei Fang Linyi Yang Yanghua Xiao Yue Zhang 73 5 0 28 Sep 2022
Medical Image Captioning via Generative Pretrained Transformers Alexander Selivanov Oleg Y. Rogov Daniil Chesakov Artem Shelmanov Irina Fedulova Dmitry Dylov MedIm 57 55 0 28 Sep 2022
Word to Sentence Visual Semantic Similarity for Caption Generation: Lessons Learned Ahmed Sabir 19 0 0 26 Sep 2022
Show, Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia K. Nguyen Ali Furkan Biten Andrés Mafla Lluís Gómez Dimosthenis Karatzas 36 10 0 21 Sep 2022
Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud Geraldo F. Oliveira Juan Gómez Luna Saugata Ghose Amirali Boroumand O. Mutlu 29 24 0 19 Sep 2022
Learning Distinct and Representative Styles for Image Captioning Qi Chen Chaorui Deng Qi Wu VLM 42 23 0 17 Sep 2022
Belief Revision based Caption Re-ranker with Visual Semantic Information Ahmed Sabir Francesc Moreno-Noguer Pranava Madhyastha Lluís Padró BDL 32 2 0 16 Sep 2022
M^4I: Multi-modal Models Membership Inference Pingyi Hu Zihan Wang Ruoxi Sun Hu Wang Minhui Xue 39 26 0 15 Sep 2022
PaLI: A Jointly-Scaled Multilingual Language-Image Model Xi Chen Tianlin Li Soravit Changpinyo A. Piergiovanni Piotr Padlewski ... Andreas Steiner A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut MLLM VLM 37 688 0 14 Sep 2022
Look Before You Leap: Improving Text-based Person Retrieval by Learning A Consistent Cross-modal Common Manifold Zijie Wang Aichun Zhu Jingyi Xue Xili Wan Chao Liu Tiang-Cong Wang Yifeng Li 64 76 0 13 Sep 2022
CAIBC: Capturing All-round Information Beyond Color for Text-based Person Retrieval Zijie Wang Aichun Zhu Jingyi Xue Xili Wan Chao Liu Tiang-Cong Wang Yifeng Li 91 78 0 13 Sep 2022
Action-based Early Autism Diagnosis Using Contrastive Feature Learning Asha Rani Pankaj Yadav Yashaswi Verma 24 3 0 12 Sep 2022
Evaluation of Question Answering Systems: Complexity of judging a natural language Amer Farea Zhen Yang Kien Duong Nadeesha Perera F. Emmert-Streib ELM 31 3 0 10 Sep 2022
Cross Modal Compression: Towards Human-comprehensible Semantic Compression Jiguo Li Chuanmin Jia Xinfeng Zhang Siwei Ma Wen Gao 19 18 0 06 Sep 2022