v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,520 papers shown

Title
Salient Object Subitizing Jianming Zhang Shugao Ma M. Sameki Stan Sclaroff Margrit Betke Zhe Lin Xiaohui Shen Brian L. Price R. Měch 87 115 0 26 Jul 2016
Learning Aligned Cross-Modal Representations from Weakly Aligned Data Lluis Castrejon Y. Aytar Carl Vondrick Hamed Pirsiavash Antonio Torralba SSL DRL AI4TS 92 168 0 25 Jul 2016
An Actor-Critic Algorithm for Sequence Prediction Dzmitry Bahdanau Philemon Brakel Kelvin Xu Anirudh Goyal Ryan J. Lowe Joelle Pineau Aaron Courville Yoshua Bengio 165 640 0 24 Jul 2016
Spatio-Temporal LSTM with Trust Gates for 3D Human Action Recognition Jun Liu Amir Shahroudy Dong Xu Gang Wang 191 1,109 0 24 Jul 2016
Hierarchical Attention Network for Action Recognition in Videos Yilin Wang Suhang Wang Jiliang Tang Neil O'Hare Yi-Ju Chang Baoxin Li BDL 83 82 0 21 Jul 2016
Constructing a Natural Language Inference Dataset using Generative Neural Networks Janez Starc Dunja Mladenić 38 7 0 20 Jul 2016
Visual Question Answering: A Survey of Methods and Datasets Qi Wu Damien Teney Peng Wang Chunhua Shen A. Dick Anton Van Den Hengel 126 418 0 20 Jul 2016
HeMIS: Hetero-Modal Image Segmentation Mohammad Havaei N. Guizard Nicolas Chapados Yoshua Bengio MedIm 90 272 0 18 Jul 2016
Weakly Supervised Learning of Heterogeneous Concepts in Videos Sohil Shah K. Kulkarni Arijit Biswas Ankit Gandhi Om Deshmukh L. Davis 68 2 0 12 Jul 2016
VideoLSTM Convolves, Attends and Flows for Action Recognition Zhenyang Li E. Gavves Mihir Jain Cees G. M. Snoek 118 466 0 06 Jul 2016
Domain Adaptation for Neural Networks by Parameter Augmentation Yusuke Watanabe Kazuma Hashimoto Yoshimasa Tsuruoka OOD 56 6 0 01 Jul 2016
Dynamic Neural Turing Machine with Soft and Hard Addressing Schemes Çağlar Gülçehre A. Chandar Kyunghyun Cho Yoshua Bengio 153 64 0 30 Jun 2016
"Show me the cup": Reference with Continuous Representations Gemma Boleda Sebastian Padó Marco Baroni 49 3 0 28 Jun 2016
Diversified Visual Attention Networks for Fine-Grained Object Classification Bo Zhao Xiao-Jun Wu Jiashi Feng Qiang Peng Shuicheng Yan 111 366 0 28 Jun 2016
Sequence-Level Knowledge Distillation Yoon Kim Alexander M. Rush 138 1,123 0 25 Jun 2016
CUNI System for WMT16 Automatic Post-Editing and Multimodal Translation Tasks Jindrich Libovický Jindřich Helcl Marek Tlustý Pavel Pecina Ondrej Bojar 78 68 0 23 Jun 2016
LSTMVis: A Tool for Visual Analysis of Hidden State Dynamics in Recurrent Neural Networks Hendrik Strobelt Sebastian Gehrmann Hanspeter Pfister Alexander M. Rush HAI 76 83 0 23 Jun 2016
Tagger: Deep Unsupervised Perceptual Grouping Klaus Greff Antti Rasmus Mathias Berglund T. Hao Jürgen Schmidhuber Harri Valpola OCL 119 161 0 21 Jun 2016
Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions Arijit Ray Gordon A. Christie Joey Tianyi Zhou Dhruv Batra Devi Parikh 96 56 0 21 Jun 2016
Drawing and Recognizing Chinese Characters with Recurrent Neural Network Xu-Yao Zhang Fei Yin Yanming Zhang Cheng-Lin Liu Yoshua Bengio 125 323 0 21 Jun 2016
Using Visual Analytics to Interpret Predictive Machine Learning Models Josua Krause Adam Perer E. Bertini HAI 91 65 0 17 Jun 2016
FVQA: Fact-based Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton van den Hengel A. Dick CoGe 115 464 0 17 Jun 2016
Model-Agnostic Interpretability of Machine Learning Marco Tulio Ribeiro Sameer Singh Carlos Guestrin FAtt FaML 90 841 0 16 Jun 2016
A Correlational Encoder Decoder Architecture for Pivot Based Sequence Generation Amrita Saha Mitesh M. Khapra A. Chandar Janarthanan Rajendran Kyunghyun Cho 79 18 0 15 Jun 2016
Unsupervised Learning of Predictors from Unpaired Input-Output Samples Jianshu Chen Po-Sen Huang Xiaodong He Jianfeng Gao Li Deng OOD SSL 79 8 0 15 Jun 2016
Bidirectional Long-Short Term Memory for Video Description Yi Bin Yang Yang Zi Huang Fumin Shen Xing Xu Heng Tao Shen 80 61 0 15 Jun 2016
Watch What You Just Said: Image Captioning with Text-Conditional Attention Luowei Zhou Chenliang Xu Parker A. Koch Jason J. Corso VLM 72 44 0 15 Jun 2016
End-to-End Comparative Attention Networks for Person Re-identification Hao Liu Jiashi Feng Meibin Qi Jianguo Jiang Shuicheng Yan 125 579 0 14 Jun 2016
Rationalizing Neural Predictions Tao Lei Regina Barzilay Tommi Jaakkola 131 813 0 13 Jun 2016
Training Recurrent Answering Units with Joint Loss Minimization for VQA Hyeonwoo Noh Bohyung Han 101 71 0 12 Jun 2016
Natural Language Generation in Dialogue using Lexicalized and Delexicalized Data Shikhar Sharma Jing He Kaheer Suleman Hannes Schulz Philip Bachman 96 29 0 11 Jun 2016
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions? Abhishek Das Harsh Agrawal C. L. Zitnick Devi Parikh Dhruv Batra 134 467 0 11 Jun 2016
Conditional Generation and Snapshot Learning in Neural Dialogue Systems Tsung-Hsien Wen Milica Gasic N. Mrksic L. Rojas-Barahona Pei-hao Su Stefan Ultes David Vandyke S. Young 89 79 0 10 Jun 2016
Sequence-to-Sequence Learning as Beam-Search Optimization Sam Wiseman Alexander M. Rush 182 594 0 09 Jun 2016
Progressive Attention Networks for Visual Attribute Prediction Paul Hongsuck Seo Zhe Lin Scott D. Cohen Xiaohui Shen Bohyung Han 91 42 0 08 Jun 2016
SE3-Nets: Learning Rigid Body Motion using Deep Neural Networks Arunkumar Byravan Dieter Fox 3DPC 90 269 0 08 Jun 2016
Iterative Alternating Neural Attention for Machine Reading Alessandro Sordoni Philip Bachman Adam Trischler Yoshua Bengio CLL AIMat 86 119 0 07 Jun 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 353 1,471 0 06 Jun 2016
Attention Correctness in Neural Image Captioning Chenxi Liu Junhua Mao Fei Sha Alan Yuille 3DV 105 221 0 31 May 2016
End-to-End Instance Segmentation with Recurrent Attention Mengye Ren R. Zemel SSeg 118 62 0 30 May 2016
Does Multimodality Help Human and Machine for Translation and Image Captioning? Ozan Caglayan Walid Aransa Yaxing Wang Marc Masana Mercedes García-Martínez Fethi Bougares Loïc Barrault Joost van de Weijer 119 86 0 30 May 2016
Video Summarization with Long Short-term Memory Ke Zhang Wei-Lun Chao Fei Sha Kristen Grauman 124 690 0 26 May 2016
Review Networks for Caption Generation Zhilin Yang Ye Yuan Yuexin Wu Ruslan Salakhutdinov William W. Cohen 3DV 80 85 0 25 May 2016
BattRAE: Bidimensional Attention-Based Recursive Autoencoders for Learning Bilingual Phrase Embeddings Biao Zhang Deyi Xiong Jinsong Su 21 20 0 25 May 2016
Localizing by Describing: Attribute-Guided Attention Localization for Fine-Grained Recognition Xiao-Chang Liu Jiang Wang Shilei Wen Errui Ding Yuanqing Lin 63 78 0 20 May 2016
Generative Adversarial Text to Image Synthesis Scott E. Reed Zeynep Akata Xinchen Yan Lajanugen Logeswaran Bernt Schiele Honglak Lee GAN 214 3,152 0 17 May 2016
Learning Deep Representations of Fine-grained Visual Descriptions Scott E. Reed Zeynep Akata Bernt Schiele Honglak Lee OCL VLM 237 843 0 17 May 2016
Movie Description Anna Rohrbach Atousa Torabi Marcus Rohrbach Niket Tandon C. Pal Hugo Larochelle Aaron Courville Bernt Schiele 3DV VGen 90 361 0 12 May 2016
Ask Your Neurons: A Deep Learning Approach to Visual Question Answering Mateusz Malinowski Marcus Rohrbach Mario Fritz 113 101 0 09 May 2016
Chained Predictions Using Convolutional Neural Networks Georgia Gkioxari Alexander Toshev Navdeep Jaitly BDL 76 190 0 08 May 2016