Show and Tell: A Neural Image Caption Generator

17 November 2014

Papers citing "Show and Tell: A Neural Image Caption Generator"

50 / 2,022 papers shown

Title
Grid Long Short-Term Memory Nal Kalchbrenner Ivo Danihelka Alex Graves AI4TS 21 362 0 06 Jul 2015
Describing Multimedia Content using Attention-based Encoder--Decoder Networks Kyunghyun Cho Aaron Courville Yoshua Bengio 32 411 0 04 Jul 2015
Occam's Gates Jonathan Raiman Szymon Sidor 22 1 0 27 Jun 2015
Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books Yukun Zhu Ryan Kiros R. Zemel Ruslan Salakhutdinov R. Urtasun Antonio Torralba Sanja Fidler 22 2,516 0 22 Jun 2015
Aligning where to see and what to tell: image caption with region-based attention and scene factorization Junqi Jin Kun Fu Runpeng Cui Fei Sha Changshui Zhang 26 117 0 20 Jun 2015
A Neural Conversational Model Oriol Vinyals Quoc V. Le BDL 13 1,763 0 19 Jun 2015
Compressing Convolutional Neural Networks Wenlin Chen James T. Wilson Stephen Tyree Kilian Q. Weinberger Yixin Chen 24 139 0 14 Jun 2015
Reading Scene Text in Deep Convolutional Sequences Pan He Weilin Huang Yu Qiao Chen Change Loy Xiaoou Tang 21 307 0 14 Jun 2015
Listen, Attend, and Walk: Neural Mapping of Navigational Instructions to Action Sequences Hongyuan Mei Joey Tianyi Zhou Matthew R. Walter LM&Ro 21 242 0 12 Jun 2015
Learning language through pictures Grzegorz Chrupała Ákos Kádár A. Alishahi VLM SSL 29 65 0 11 Jun 2015
Pointer Networks Oriol Vinyals Meire Fortunato Navdeep Jaitly 48 3,016 0 09 Jun 2015
Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks Samy Bengio Oriol Vinyals Navdeep Jaitly Noam M. Shazeer 51 2,017 0 09 Jun 2015
Visual Learning of Arithmetic Operations Yedid Hoshen Shmuel Peleg MU 24 22 0 07 Jun 2015
Visualizing and Understanding Recurrent Networks A. Karpathy Justin Johnson Li Fei-Fei HAI 21 1,096 0 05 Jun 2015
Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video Lionel Pigou Aaron van den Oord Sander Dieleman Mieke Van Herreweghe J. Dambre 25 254 0 05 Jun 2015
The Long-Short Story of Movie Description Anna Rohrbach Marcus Rohrbach Bernt Schiele VLM 25 110 0 04 Jun 2015
Cyclical Learning Rates for Training Neural Networks L. Smith ODL 41 2,498 0 03 Jun 2015
What value do explicit high level concepts have in vision to language problems? Qi Wu Chunhua Shen Lingqiao Liu A. Dick Anton Van Den Hengel 22 443 0 03 Jun 2015
Learning with hidden variables Y. Roudi Graham Taylor 42 16 0 01 Jun 2015
Learning to Answer Questions From Image Using Convolutional Neural Network Lin Ma Zhengdong Lu Hang Li 27 261 0 01 Jun 2015
Visual Madlibs: Fill in the blank Image Generation and Question Answering Licheng Yu Eunbyung Park Alexander C. Berg Tamara L. Berg VLM MLLM 32 97 0 31 May 2015
Sequence-to-Sequence Neural Net Models for Grapheme-to-Phoneme Conversion Kaisheng Yao Geoffrey Zweig 45 163 0 31 May 2015
A Critical Review of Recurrent Neural Networks for Sequence Learning Zachary Chase Lipton John Berkowitz Charles Elkan 36 2,320 0 29 May 2015
A Multi-scale Multiple Instance Video Description Network Huijuan Xu Subhashini Venugopalan Vasili Ramanishka Marcus Rohrbach Kate Saenko 32 64 0 21 May 2015
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering Haoyuan Gao Junhua Mao Jie Zhou Zhiheng Huang Lei Wang Wenyuan Xu 32 496 0 21 May 2015
Image Reconstruction from Bag-of-Visual-Words Hiroharu Kato Tatsuya Harada 57 84 0 19 May 2015
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models Bryan A. Plummer Liwei Wang Christopher M. Cervantes Juan C. Caicedo J. Hockenmaier Svetlana Lazebnik 83 2,001 0 19 May 2015
Visual Semantic Role Labeling Saurabh Gupta Jitendra Malik 18 403 0 17 May 2015
Exploring Nearest Neighbor Approaches for Image Captioning Jacob Devlin Saurabh Gupta Ross B. Girshick Margaret Mitchell C. L. Zitnick 19 195 0 17 May 2015
Exploring Models and Data for Image Question Answering Mengye Ren Ryan Kiros R. Zemel 30 711 0 08 May 2015
Jointly Modeling Embedding and Translation to Bridge Video and Language Yingwei Pan Tao Mei Ting Yao Houqiang Li Y. Rui 41 535 0 07 May 2015
Language Models for Image Captioning: The Quirks and What Works Jacob Devlin Hao Cheng Hao Fang Saurabh Gupta Li Deng Xiaodong He Geoffrey Zweig Margaret Mitchell 32 281 0 07 May 2015
Ask Your Neurons: A Neural-based Approach to Answering Questions about Images Mateusz Malinowski Marcus Rohrbach Mario Fritz 38 595 0 05 May 2015
Interleaved Text/Image Deep Mining on a Large-Scale Radiology Database for Automated Image Interpretation Hoo-Chang Shin Le Lu Lauren Kim Ari Seff Jianhua Yao Ronald M. Summers 26 46 0 04 May 2015
Sequence to Sequence -- Video to Text Subhashini Venugopalan Marcus Rohrbach Jeff Donahue Raymond J. Mooney Trevor Darrell Kate Saenko 22 14 0 03 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 64 5,369 0 03 May 2015
ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks Francesco Visin Kyle Kastner Kyunghyun Cho Matteo Matteucci Aaron Courville Yoshua Bengio SSeg 16 271 0 03 May 2015
Multi-Object Classification and Unsupervised Scene Understanding Using Deep Learning Features and Latent Tree Probabilistic Models Tejaswi Nimmagadda Anima Anandkumar OCL 19 9 0 02 May 2015
Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images Junhua Mao Xu Wei Yi Yang Jiang Wang Zhiheng Huang Alan Yuille 25 154 0 25 Apr 2015
Multimodal Convolutional Neural Networks for Matching Image and Sentence Lin Ma Zhengdong Lu Lifeng Shang Hang Li 38 337 0 23 Apr 2015
Compressing Neural Networks with the Hashing Trick Wenlin Chen James T. Wilson Stephen Tyree Kilian Q. Weinberger Yixin Chen 16 1,190 0 19 Apr 2015
Transferring Knowledge from a RNN to a DNN William Chan Nan Rosemary Ke Ian Lane 19 75 0 07 Apr 2015
Deep Recurrent Neural Networks for Acoustic Modelling William Chan Ian Lane 19 44 0 07 Apr 2015
Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images Chen Sun Sanketh Shetty Rahul Sukthankar Ram Nevatia 18 136 0 04 Apr 2015
A Simple Way to Initialize Recurrent Networks of Rectified Linear Units Quoc V. Le Navdeep Jaitly Geoffrey E. Hinton ODL 19 716 0 03 Apr 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 62 2,433 0 01 Apr 2015
Long Short-Term Memory Over Tree Structures Xiao-Dan Zhu Parinaz Sobhani Hongyu Guo RALM 24 70 0 16 Mar 2015
Fully Connected Deep Structured Networks A. Schwing R. Urtasun SSeg 57 308 0 09 Mar 2015
Using Descriptive Video Services to Create a Large Data Source for Video Annotation Research Atousa Torabi C. Pal Hugo Larochelle Aaron Courville VGen 31 204 0 03 Mar 2015
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks Kai Sheng Tai R. Socher Christopher D. Manning AIMat 64 3,111 0 28 Feb 2015