v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,520 papers shown

Title
Structured Reordering for Modeling Latent Alignments in Sequence Transduction Bailin Wang Mirella Lapata Ivan Titov BDL 99 20 0 06 Jun 2021
MOC-GAN: Mixing Objects and Captions to Generate Realistic Images Tao Ma Yikang Li 45 0 0 06 Jun 2021
Convolutional Neural Network(CNN/ConvNet) in Stock Price Movement Prediction Kunal Bhardwaj 66 4 0 03 Jun 2021
Attention mechanisms and deep learning for machine vision: A survey of the state of the art A. M. Hafiz S. A. Parah R. A. Bhat 101 45 0 03 Jun 2021
NODE-GAM: Neural Generalized Additive Model for Interpretable Deep Learning C. Chang R. Caruana Anna Goldenberg AI4CE 93 80 0 03 Jun 2021
Deconfounded Video Moment Retrieval with Causal Intervention Xun Yang Fuli Feng Wei Ji Meng Wang Tat-Seng Chua CML VGen 82 191 0 03 Jun 2021
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis Joshua Forster Feinglass Yezhou Yang 60 22 0 02 Jun 2021
Exploring modality-agnostic representations for music classification Ho-Hsiang Wu Magdalena Fuentes J. P. Bello 131 4 0 02 Jun 2021
Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep Features Nicola Messina Giuseppe Amato Fabrizio Falchi Claudio Gennaro Stéphane Marchand-Maillet 39 7 0 01 Jun 2021
ACE-NODE: Attentive Co-Evolving Neural Ordinary Differential Equations Sheo Yon Jhin Minju Jo Taeyong Kong Jinsung Jeon Noseong Park BDL 69 15 0 31 May 2021
Cascaded Head-colliding Attention Lin Zheng Zhiyong Wu Lingpeng Kong 55 2 0 31 May 2021
Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation Stephen James Andrew J. Davison 96 129 0 31 May 2021
Data Fusion for Deep Learning on Transport Mode Detection: A Case Study Hugues Moreau A. Vassilev Liming Chen 78 2 0 31 May 2021
Multiscale IoU: A Metric for Evaluation of Salient Object Detection with Fine Structures Azim Ahmadzadeh Dustin J. Kempton Yang Chen R. Angryk 60 6 0 30 May 2021
Longer Version for "Deep Context-Encoding Network for Retinal Image Captioning" Jia-Hong Huang Ting-Wei Wu Chao-Han Huck Yang Marcel Worring MedIm 66 29 0 30 May 2021
Towards Diverse Paragraph Captioning for Untrimmed Videos Yuqing Song Shizhe Chen Qin Jin 68 38 0 30 May 2021
Maintaining Common Ground in Dynamic Environments Takuma Udagawa Akiko Aizawa 48 13 0 29 May 2021
FoveaTer: Foveated Transformer for Image Classification Aditya Jonnalagadda Wenjie Wang B. S. Manjunath Miguel P. Eckstein ViT 86 24 0 29 May 2021
Recursive Contour Saliency Blending Network for Accurate Salient Object Detection Y. Yun Takahiro Tsubono 86 58 0 28 May 2021
New Encoder Learning for Captioning Heavy Rain Images via Semantic Visual Feature Matching Chang-Hwan Son Pung-Hwi Ye 130 3 0 28 May 2021
THINK: A Novel Conversation Model for Generating Grammatically Correct and Coherent Responses Bin Sun Shaoxiong Feng Yiwei Li Jiamou Liu Kan Li 40 3 0 28 May 2021
Recent advances and clinical applications of deep learning in medical image analysis Xuxin Chen Ximing Wang Kecheng Zhang K. Fung T. Thai K. Moore Robert S. Mannel Hong Liu B. Zheng Y. Qiu OOD 138 616 0 27 May 2021
Cardiac Segmentation on CT Images through Shape-Aware Contour Attentions Sanguk Park Minyoung Chung 24 15 0 27 May 2021
GCNBoost: Artwork Classification by Label Propagation through a Knowledge Graph Cheikh Brahim El Vaigh Noa Garcia B. Renoust Chenhui Chu Yuta Nakashima Hajime Nagahara 63 24 0 25 May 2021
Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation Xingyi Yang Muchao Ye Quanzeng You Fenglong Ma MedIm 57 38 0 25 May 2021
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training Jong Hak Moon HyunGyung Lee W. Shin Young-Hak Kim Edward Choi MedIm 113 161 0 24 May 2021
Automated Knee X-ray Report Generation Aydan Gasimova Giovanni Montana Daniel Rueckert MedIm 26 1 0 22 May 2021
Flexible Compositional Learning of Structured Visual Concepts Yanli Zhou Brenden M. Lake OCL CoGe 41 7 0 20 May 2021
Zorro: Valid, Sparse, and Stable Explanations in Graph Neural Networks Thorben Funke Megha Khosla Mandeep Rathee Avishek Anand FAtt 105 41 0 18 May 2021
Dependent Multi-Task Learning with Causal Intervention for Image Captioning Wenqing Chen Jidong Tian Caoyun Fan Hao He Yaohui Jin CML 136 6 0 18 May 2021
I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text Recognition Chuhui Xue Jiaxing Huang Wenqing Zhang Shijian Lu Changhu Wang S. Bai 108 17 0 18 May 2021
Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K Videos using a Joint Detection-and-Tracking Approach Ryota Yoshihashi Rei Kawakami Shaodi You T. Trinh M. Iida T. Naemura ObjD VOT 59 3 0 18 May 2021
Empirical Analysis of Image Caption Generation using Deep Learning Aditya R. Bhattacharya Eshwar Shamanna Girishekar Padmakar Anil Deshpande 33 1 0 14 May 2021
Audio Captioning with Composition of Acoustic and Semantic Information Aysegül Özkaya Eren M. Sert 65 3 0 13 May 2021
SAFIN: Arbitrary Style Transfer With Self-Attentive Factorized Instance Normalization Aaditya Singh Shreeshail Hingane Xinyu Gong Zhangyang Wang 69 19 0 13 May 2021
Connecting What to Say With Where to Look by Modeling Human Attention Traces Zihang Meng Licheng Yu Ning Zhang Tamara L. Berg Babak Damavandi Vikas Singh Amy Bearman 157 25 0 12 May 2021
Instance-aware Remote Sensing Image Captioning with Cross-hierarchy Attention Chengze Wang Zhiyu Jiang Yuan Yuan 27 11 0 11 May 2021
Primitive Representation Learning for Scene Text Recognition Ruijie Yan Liangrui Peng Shanyu Xiao Gang Yao 57 67 0 10 May 2021
T-EMDE: Sketching-based global similarity for cross-modal retrieval Barbara Rychalska Mikolaj Wieczorek Jacek Dąbrowski 63 0 0 10 May 2021
KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation Mengqi Xue Mingli Song Xinchao Wang Ying Chen Xingen Wang Xiuming Zhang 55 10 0 10 May 2021
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning D. Guo Ruiying Lu Bo Chen Zequn Zeng Mingyuan Zhou VLM 89 9 0 10 May 2021
Graph Attention Networks with Positional Embeddings Liheng Ma Reihaneh Rabbany Adriana Romero Soriano GNN 72 21 0 09 May 2021
A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor Approach for Image Captioning Kartik Arora Ajul Raj Arun Goel Seba Susan 28 0 0 09 May 2021
Improving the Faithfulness of Attention-based Explanations with Task-specific Information for Text Classification G. Chrysostomou Nikolaos Aletras 87 38 0 06 May 2021
Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer Wenqi Zhao Liangcai Gao Zuoyu Yan Shuai Peng Lin Du Ziyin Zhang ViT 186 55 0 06 May 2021
Exploring Explicit and Implicit Visual Relationships for Image Captioning Zeliang Song Xiaofei Zhou 26 8 0 06 May 2021
Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks Meng-Hao Guo Zheng-Ning Liu Tai-Jiang Mu Shimin Hu 85 504 0 05 May 2021
Soft-Attention Improves Skin Cancer Classification Performance S. Datta Mohammad Abuzar Shaikh H. Srihari Mingchen Gao 62 108 0 05 May 2021
A survey on VQA_Datasets and Approaches Yeyun Zou Qiyu Xie 81 18 0 02 May 2021
End-to-End Attention-based Image Captioning Carola Sundaramoorthy Lin Ziwen Kelvin Mahak Sarin Shubham Gupta ViT 59 6 0 30 Apr 2021