Image Captioning with Semantic Attention

12 March 2016

Papers citing "Image Captioning with Semantic Attention"

50 / 562 papers shown

Title
Disentangle and Remerge: Interventional Knowledge Distillation for Few-Shot Object Detection from A Conditional Causal Perspective Jiangmeng Li Yanan Zhang Jingyao Wang Hui Xiong Chengbo Jiao Xiaohui Hu Changwen Zheng Gang Hua CML 34 28 0 26 Aug 2022
A Medical Semantic-Assisted Transformer for Radiographic Report Generation Zhanyu Wang Mingkang Tang Lei Wang Xiu Li Luping Zhou ViT MedIm 24 56 0 22 Aug 2022
Vision-Language Matching for Text-to-Image Synthesis via Generative Adversarial Networks Qingrong Cheng Keyu Wen X. Gu VLM EGVM 32 16 0 20 Aug 2022
GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement Zhi-Qi Cheng Qianwen Dai Siyao Li Teruko Mitamura Alexander G. Hauptmann 16 34 0 18 Aug 2022
CSSAM:Code Search via Attention Matching of Code Semantics and Structures Y. Hu Bowen Cai Yaoxiang Yu 21 3 0 08 Aug 2022
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification Renrui Zhang Zhang Wei Rongyao Fang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 35 293 0 19 Jul 2022
Invariant Feature Learning for Generalized Long-Tailed Classification Kaihua Tang Mingyuan Tao Jiaxin Qi Zhenguang Liu Hanwang Zhang VLM 32 52 0 19 Jul 2022
Cross-modal Prototype Driven Network for Radiology Report Generation Jun Wang A. Bhalerao Yulan He MedIm 93 72 0 11 Jul 2022
Are metrics measuring what they should? An evaluation of image captioning task metrics Othón González-Chávez Guillermo Ruiz Daniela Moctezuma Tania A. Ramirez-delreal 21 9 0 04 Jul 2022
Attributed Abnormality Graph Embedding for Clinically Accurate X-Ray Report Generation Sixing Yan William K. Cheung Keith W H Chiu Terence M. Tong Charles K. Cheung Simon See MedIm 31 14 0 04 Jul 2022
Image Captioning based on Feature Refinement and Reflective Decoding G. Alabduljabbar Hafida Benhidour Said Kerrache 3DV 19 3 0 16 Jun 2022
Discrete Contrastive Diffusion for Cross-Modal Music and Image Generation Ye Zhu Yuehua Wu Kyle Olszewski Jian Ren Sergey Tulyakov Yan Yan DiffM 28 47 0 15 Jun 2022
Measuring Representational Harms in Image Captioning Angelina Wang Solon Barocas Kristen Laird Hanna M. Wallach 21 51 0 14 Jun 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 26 87 0 14 Jun 2022
Dual Windows Are Significant: Learning from Mediastinal Window and Focusing on Lung Window Qiuli Wang Xin Tan Chen Liu 23 0 0 08 Jun 2022
Soft Adversarial Training Can Retain Natural Accuracy Abhijith Sharma Apurva Narayan AAML 14 2 0 04 Jun 2022
Controllable Text Generation with Neurally-Decomposed Oracle Tao Meng Sidi Lu Nanyun Peng Kai-Wei Chang BDL 38 35 0 27 May 2022
Prompt-based Learning for Unpaired Image Captioning Peipei Zhu Tianlin Li Lin Zhu Zhenglong Sun Weishi Zheng Yaowei Wang Chia-Ju Chen VLM 25 31 0 26 May 2022
Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt Jiangmeng Li Wenyi Mo Jingyao Wang Bing-Huang Su Changwen Zheng Hui Xiong Ji-Rong Wen VLM 16 0 0 23 May 2022
Gender and Racial Bias in Visual Question Answering Datasets Yusuke Hirota Yuta Nakashima Noa Garcia FaML 132 46 0 17 May 2022
Importance Weighted Structure Learning for Scene Graph Generation Daqing Liu M. Bober J. Kittler 27 5 0 14 May 2022
Efficient Gesture Recognition for the Assistance of Visually Impaired People using Multi-Head Neural Networks Samer Alashhab Antonio Javier Gallego Miguel Ángel Lozano 24 16 0 14 May 2022
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning Chia-Wen Kuo Z. Kira 21 52 0 09 May 2022
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog Cheng Chen Yudong Zhu Zhenshan Tan Qingrong Cheng Xin Jiang Qun Liu X. Gu 31 39 0 01 May 2022
Supervised Attention in Sequence-to-Sequence Models for Speech Recognition Gene-Ping Yang Hao Tang 17 2 0 25 Apr 2022
Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension Peihan Miao Wei Su Gaoang Wang Xuewei Li Xi Li ObjD 27 9 0 21 Apr 2022
Image Captioning In the Transformer Age Yangliu Xu Li Li Haiyang Xu Songfang Huang Fei Huang Jianfei Cai ViT 24 5 0 15 Apr 2022
Learning Audio-Video Modalities from Image Captions Arsha Nagrani Paul Hongsuck Seo Bryan Seybold Anja Hauth Santiago Manén Chen Sun Cordelia Schmid CLIP 16 82 0 01 Apr 2022
Collaborative Transformers for Grounded Situation Recognition Junhyeong Cho Youngseok Yoon Suha Kwak ViT 27 25 0 30 Mar 2022
Incorporating Dynamic Semantics into Pre-Trained Language Model for Aspect-based Sentiment Analysis Kai Zhang Kunpeng Zhang Mengdi Zhang Hongke Zhao Qi Liu Wei Wu Enhong Chen 9 51 0 30 Mar 2022
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method W. Ramos M. Silva Edson R. Araujo Victor Moura Keller Clayderman Martins de Oliveira Leandro Soriano Marcolino Erickson R. Nascimento VGen 16 3 0 29 Mar 2022
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning Chen Chen Nana Hou Yuchen Hu Heqing Zou Xiaofeng Qi Chng Eng Siong VLM 26 21 0 29 Mar 2022
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding Jiabo Ye Junfeng Tian Ming Yan Xiaoshan Yang Xuwu Wang Ji Zhang Liang He Xin Lin ObjD 11 61 0 29 Mar 2022
Quantifying Societal Bias Amplification in Image Captioning Yusuke Hirota Yuta Nakashima Noa Garcia 19 49 0 29 Mar 2022
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation Di You Fenglin Liu Shen Ge Xiaoxia Xie Jing Zhang Xian Wu ViT MedIm 26 106 0 18 Mar 2022
Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling Tengpeng Li Hanli Wang Bin He Changan Chen DiffM 21 9 0 10 Mar 2022
A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism Rashid Khan Shujah Islam Khadija Kanwal Mansoor Iqbal Md. Imran Hossain Z. Ye 3DV 20 16 0 03 Mar 2022
TableFormer: Table Structure Understanding with Transformers A. Nassar Nikolaos Livathinos Maksym Lysak Peter W. J. Staar LMTD ViT 11 73 0 02 Mar 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 38 27 0 21 Feb 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 18 3 0 16 Feb 2022
Adversarial Attack and Defense of YOLO Detectors in Autonomous Driving Scenarios Jung Im Choi Qing Tian AAML 30 38 0 10 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 16 89 0 31 Jan 2022
LAP: An Attention-Based Module for Concept Based Self-Interpretation and Knowledge Injection in Convolutional Neural Networks Rassa Ghavami Modegh Ahmadali Salimi Alireza Dizaji Hamid R. Rabiee FAtt 32 0 0 27 Jan 2022
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis Georgios Paraskevopoulos Efthymios Georgiou Alexandros Potamianos 19 26 0 24 Jan 2022
An Integrated Approach for Video Captioning and Applications Soheyla Amirian T. Taha Khaled Rasheed H. Arabnia 31 1 0 23 Jan 2022
Large-Scale Inventory Optimization: A Recurrent-Neural-Networks-Inspired Simulation Approach T. Wan L. Hong 14 10 0 15 Jan 2022
A Survey of Natural Language Generation Chenhe Dong Hai-Tao Zheng Haifan Gong Mengzhao Chen Junxin Li Ying Shen Min Yang 3DV 27 43 0 22 Dec 2021
MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding Revanth Reddy Gangi Reddy Xilin Rui Manling Li Xudong Lin Haoyang Wen ... Joey Tianyi Zhou Avirup Sil Shih-Fu Chang A. Schwing Heng Ji 25 31 0 20 Dec 2021
Inherently Explainable Reinforcement Learning in Natural Language Xiangyu Peng Mark O. Riedl Prithviraj Ammanabrolu LRM 11 20 0 16 Dec 2021
Neural Belief Propagation for Scene Graph Generation Daqi Liu M. Bober J. Kittler GNN 19 8 0 10 Dec 2021