Image Captioning: Transforming Objects into Words

14 June 2019

Papers citing "Image Captioning: Transforming Objects into Words"

50 / 161 papers shown

Title
ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models Sheng Wang Zihao Zhao Xi Ouyang Qian Wang Dinggang Shen LM&MA MedIm 29 140 0 14 Feb 2023
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions Binyang Song Ruilin Zhou Faez Ahmed AI4CE 37 40 0 14 Feb 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 21 71 0 13 Feb 2023
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) Rana Adnan Ahmad Muhammad Azhar Hina Sattar 26 10 0 06 Jan 2023
Adaptively Clustering Neighbor Elements for Image-Text Generation Zihua Wang Xu Yang Hanwang Zhang Haiyang Xu Mingshi Yan Feisi Huang Yu Zhang VLM 88 0 0 05 Jan 2023
Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning Woohyun Kang Jonghwan Mun Sungjun Lee Byungseok Roh VLM 14 18 0 27 Dec 2022
Semantic-Conditional Diffusion Networks for Image Captioning Jianjie Luo Yehao Li Yingwei Pan Ting Yao Jianlin Feng Hongyang Chao Tao Mei DiffM 30 62 0 06 Dec 2022
Unified Discrete Diffusion for Simultaneous Vision-Language Generation Minghui Hu Chuanxia Zheng Heliang Zheng Tat-Jen Cham Chaoyue Wang Zuopeng Yang Dacheng Tao Ponnuthurai Nagaratnam Suganthan DiffM 20 23 0 27 Nov 2022
CLID: Controlled-Length Image Descriptions with Limited Data Elad Hirsch A. Tal VLM 3DV 22 4 0 27 Nov 2022
Exploring Discrete Diffusion Models for Image Captioning Zixin Zhu Yixuan Wei Jianfeng Wang Zhe Gan Zheng-Wei Zhang Le Wang G. Hua Lijuan Wang Zicheng Liu Han Hu DiffM VLM 31 17 0 21 Nov 2022
Detect Only What You Specify : Object Detection with Linguistic Target Moyuru Yamada ObjD VLM 33 0 0 18 Nov 2022
VieCap4H-VLSP 2021: ObjectAoA-Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning Nghia Hieu Nguyen Duong T.D. Vo Minh-Quan Ha ViT 30 1 0 10 Nov 2022
OSIC: A New One-Stage Image Captioner Coined Bo Wang Zhao Zhang Ming Zhao Xiaojie Jin Mingliang Xu Meng Wang VLM 31 3 0 04 Nov 2022
Text-Only Training for Image Captioning using Noise-Injected CLIP David Nukrai Ron Mokady Amir Globerson VLM CLIP 66 94 0 01 Nov 2022
Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation Yu Zhao Jianguo Wei Zhichao Lin Yueheng Sun Meishan Zhang Hao Fei 25 16 0 20 Oct 2022
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 24 46 0 19 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 40 10 0 04 Oct 2022
PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting Hao Xue Flora D.Salim AI4TS 27 138 0 20 Sep 2022
Belief Revision based Caption Re-ranker with Visual Semantic Information Ahmed Sabir Francesc Moreno-Noguer Pranava Madhyastha Lluís Padró BDL 32 2 0 16 Sep 2022
vieCap4H-VLSP 2021: Vietnamese Image Captioning for Healthcare Domain using Swin Transformer and Attention-based LSTM THANH VAN NGUYEN Long H. Nguyen Nhat Truong Pham Liu Tai Nguyen Van Huong Do Hai Nguyen Ngoc Duy Nguyen VLM ViT 20 1 0 03 Sep 2022
Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning J. Hu Roberto Cavicchioli Alessandro Capotondi 29 21 0 13 Aug 2022
Retrieval-Augmented Transformer for Image Captioning Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara 24 57 0 26 Jul 2022
A Guide to Image and Video based Small Object Detection using Deep Learning : Case Study of Maritime Surveillance Aref Miri Rekavandi Lian Xu F. Boussaïd A. Seghouane Stephen Hoefs Bennamoun ObjD 20 17 0 26 Jul 2022
Efficient Modeling of Future Context for Image Captioning Zhengcong Fei Junshi Huang Xiaoming Wei Xiaolin K. Wei 37 14 0 22 Jul 2022
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Van-Quang Nguyen Masanori Suganuma Takayuki Okatani ViT 36 106 0 20 Jul 2022
A Baseline for Detecting Out-of-Distribution Examples in Image Captioning Gabi Shalev Gal-Lev Shalev Joseph Keshet OODD 27 7 0 12 Jul 2022
Exploring the sequence length bottleneck in the Transformer for Image Captioning Jiapeng Hu Roberto Cavicchioli Alessandro Capotondi ViT 38 3 0 07 Jul 2022
ZoDIAC: Zoneout Dropout Injection Attention Calculation Zanyar Zohourianshahzadi Jugal Kalita 33 0 0 28 Jun 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 26 88 0 14 Jun 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 72 528 0 13 Jun 2022
Modeling Image Composition for Complex Scene Generation Zuopeng Yang Daqing Liu Chaoyue Wang J. Yang Dacheng Tao ViT 36 50 0 02 Jun 2022
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning Chia-Wen Kuo Z. Kira 24 52 0 09 May 2022
Controllable Image Captioning Luka Maxwell 33 0 0 28 Apr 2022
Translation between Molecules and Natural Language Carl Edwards T. Lai Kevin Ros Garrett Honke Kyunghyun Cho Heng Ji 33 157 0 25 Apr 2022
Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds Heng Wang Chaoyi Zhang Jianhui Yu Weidong (Tom) Cai 3DPC 25 38 0 22 Apr 2022
Situational Perception Guided Image Matting Bo Xu Jiake Xie Han Huang Zi-Jun Li Cheng Lu Yong Tang Yandong Guo 33 3 0 20 Apr 2022
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks Gen Luo Yiyi Zhou Xiaoshuai Sun Yan Wang Liujuan Cao Yongjian Wu Feiyue Huang Rongrong Ji ViT 22 43 0 16 Apr 2022
Guiding Attention using Partial-Order Relationships for Image Captioning Murad Popattia Muhammad Rafi Rizwan Qureshi Shah Nawaz 21 4 0 15 Apr 2022
End-to-End Transformer Based Model for Image Captioning Yiyu Wang Jungang Xu Yingfei Sun VLM ViT 26 117 0 29 Mar 2022
Semantic Distillation Guided Salient Object Detection Bo Xu Guanze Liu Han Huang Cheng Lu Yandong Guo 13 3 0 08 Mar 2022
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models Feng Li Hao Zhang Yi-Fan Zhang Shixuan Liu Jian Guo L. Ni Pengchuan Zhang Lei Zhang AI4TS VLM 24 36 0 03 Mar 2022
Enhancing Satellite Imagery using Deep Learning for the Sensor To Shooter Timeline Matthew Ciolino Dom Hambrick David A. Noever 154 0 0 28 Feb 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 38 27 0 21 Feb 2022
XFBoost: Improving Text Generation with Controllable Decoders Xiangyu Peng Michael Sollami 25 1 0 16 Feb 2022
ACORT: A Compact Object Relation Transformer for Parameter Efficient Image Captioning J. Tan Y. Tan C. Chan Joon Huang Chuah VLM ViT 29 15 0 11 Feb 2022
Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs Daniel Louzada Fernandes Marcos Henrique Fonseca Ribeiro F. Cerqueira Michel Melo Silva 16 6 0 10 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 25 89 0 31 Jan 2022
ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation Han Zhang Weichong Yin Yewei Fang Lanxin Li Boqiang Duan Zhihua Wu Yu Sun Hao Tian Hua Wu Haifeng Wang 27 58 0 31 Dec 2021
TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning Shiming Chen Zi-Quan Hong Wenjin Hou Guosen Xie Yibing Song Jian-jun Zhao Xinge You Shuicheng Yan Ling Shao ViT 17 44 0 16 Dec 2021
TransZero: Attribute-guided Transformer for Zero-Shot Learning Shiming Chen Ziming Hong Yang Liu Guosen Xie Baigui Sun Hao Li Qinmu Peng Kelvin Lu Xinge You ViT 45 133 0 03 Dec 2021