Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

10 November 2014

Papers citing "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models"

50 / 263 papers shown

Title
Learning Aligned Cross-Modal Representations from Weakly Aligned Data Lluis Castrejon Y. Aytar Carl Vondrick Hamed Pirsiavash Antonio Torralba SSL DRL AI4TS 37 167 0 25 Jul 2016
An Actor-Critic Algorithm for Sequence Prediction Dzmitry Bahdanau Philemon Brakel Kelvin Xu Anirudh Goyal Ryan J. Lowe Joelle Pineau Aaron Courville Yoshua Bengio 57 636 0 24 Jul 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 67 10,342 0 21 Jul 2016
A Comprehensive Survey on Cross-modal Retrieval Kun Wang Qiyue Yin Wei Wang Shu Wu Liang Wang 42 294 0 21 Jul 2016
Captioning Images with Diverse Objects Subhashini Venugopalan Lisa Anne Hendricks Marcus Rohrbach Raymond J. Mooney Trevor Darrell Kate Saenko VLM 27 178 0 24 Jun 2016
Coupled Generative Adversarial Networks Ming Liu Oncel Tuzel OOD GAN 43 1,624 0 24 Jun 2016
Picture It In Your Mind: Generating High Level Visual Representations From Textual Descriptions F. Carrara Andrea Esuli T. Fagni Fabrizio Falchi Alejandro Moreo DiffM 24 31 0 23 Jun 2016
Multilingual Visual Sentiment Concept Matching Nikolaos Pappas Miriam Redi Mercan Topkara Brendan Jou Hongyi Liu Tao Chen Shih-Fu Chang CVBM 29 14 0 07 Jun 2016
CYCLADES: Conflict-free Asynchronous Machine Learning Yang Zhang Maximilian Lam Stephen Tu Dimitris Papailiopoulos Ce Zhang Michael I. Jordan M. Shah Christopher Ré Benjamin Recht 27 62 0 31 May 2016
Path-Normalized Optimization of Recurrent Neural Networks with ReLU Activations Behnam Neyshabur Yuhuai Wu Ruslan Salakhutdinov Nathan Srebro AI4CE ODL 30 30 0 23 May 2016
Movie Description Anna Rohrbach Atousa Torabi Marcus Rohrbach Niket Tandon C. Pal Hugo Larochelle Aaron Courville Bernt Schiele 3DV VGen 32 354 0 12 May 2016
Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation Hoo-Chang Shin Kirk Roberts Le Lu Dina Demner-Fushman Jianhua Yao Ronald M. Summers 24 347 0 28 Mar 2016
Neural Text Generation from Structured Data with Application to the Biography Domain R. Lebret David Grangier Michael Auli 21 45 0 24 Mar 2016
BreakingNews: Article Annotation by Image and Text Processing Arnau Ramisa F. Yan Francesc Moreno-Noguer K. Mikolajczyk 29 105 0 23 Mar 2016
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge Qi Wu Chunhua Shen Anton Van Den Hengel Peng Wang A. Dick 27 360 0 09 Mar 2016
Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures Raffaella Bernardi Ruken Cakici Desmond Elliott Aykut Erdem Erkut Erdem Nazli Ikizler-Cinbis Frank Keller A. Muscat Barbara Plank EGVM VLM 27 363 0 15 Jan 2016
DenseCap: Fully Convolutional Localization Networks for Dense Captioning Justin Johnson A. Karpathy Li Fei-Fei VLM 74 1,160 0 24 Nov 2015
Visual Word2Vec (vis-w2v): Learning Visually Grounded Word Embeddings Using Abstract Scenes Satwik Kottur Ramakrishna Vedantam José M. F. Moura Devi Parikh VLM 38 85 0 22 Nov 2015
Order-Embeddings of Images and Language Ivan Vendrov Ryan Kiros Sanja Fidler R. Urtasun 37 543 0 19 Nov 2015
Doctor AI: Predicting Clinical Events via Recurrent Neural Networks Edward Choi M. T. Bahadori A. Schuetz Walter F. Stewart Jimeng Sun 57 1,088 0 18 Nov 2015
Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data Lisa Anne Hendricks Subhashini Venugopalan Marcus Rohrbach Raymond J. Mooney Kate Saenko Trevor Darrell CoGe 16 284 0 17 Nov 2015
Yin and Yang: Balancing and Answering Binary Visual Questions Peng Zhang Yash Goyal D. Summers-Stay Dhruv Batra Devi Parikh CoGe 37 349 0 16 Nov 2015
Sherlock: Scalable Fact Learning in Images Mohamed Elhoseiny Scott D. Cohen W. Chang Brian L. Price Ahmed Elgammal 19 26 0 16 Nov 2015
Natural Language Object Retrieval Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell ObjD 46 551 0 13 Nov 2015
Improving performance of recurrent neural network with relu nonlinearity S. Talathi Aniket A. Vartak ODL 32 88 0 12 Nov 2015
Generating Images from Captions with Attention Elman Mansimov Emilio Parisotto Jimmy Lei Ba Ruslan Salakhutdinov VLM 55 450 0 09 Nov 2015
Generation and Comprehension of Unambiguous Object Descriptions Junhua Mao Jonathan Huang Alexander Toshev Oana-Maria Camburu Alan Yuille Kevin Patrick Murphy ObjD 54 1,316 0 07 Nov 2015
Deep Kernel Learning A. Wilson Zhiting Hu Ruslan Salakhutdinov Eric Xing BDL 63 874 0 06 Nov 2015
VISALOGY: Answering Visual Analogy Questions Fereshteh Sadeghi C. L. Zitnick Ali Farhadi 25 46 0 30 Oct 2015
Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks Haonan Yu Jiang Wang Zhiheng Huang Yi Yang Wenyuan Xu 44 560 0 26 Oct 2015
Describing Multimedia Content using Attention-based Encoder--Decoder Networks Kyunghyun Cho Aaron Courville Yoshua Bengio 35 411 0 04 Jul 2015
Aligning where to see and what to tell: image caption with region-based attention and scene factorization Junqi Jin Kun Fu Runpeng Cui Fei Sha Changshui Zhang 34 117 0 20 Jun 2015
Listen, Attend, and Walk: Neural Mapping of Navigational Instructions to Action Sequences Hongyuan Mei Joey Tianyi Zhou Matthew R. Walter LM&Ro 31 242 0 12 Jun 2015
Learning language through pictures Grzegorz Chrupała Ákos Kádár Afra Alishahi VLM SSL 35 65 0 11 Jun 2015
Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks Samy Bengio Oriol Vinyals Navdeep Jaitly Noam M. Shazeer 75 2,020 0 09 Jun 2015
What value do explicit high level concepts have in vision to language problems? Qi Wu Chunhua Shen Lingqiao Liu A. Dick Anton Van Den Hengel 33 443 0 03 Jun 2015
Learning to Answer Questions From Image Using Convolutional Neural Network Lin Ma Zhengdong Lu Hang Li 27 261 0 01 Jun 2015
Visual Madlibs: Fill in the blank Image Generation and Question Answering Licheng Yu Eunbyung Park Alexander C. Berg Tamara L. Berg VLM MLLM 32 97 0 31 May 2015
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering Haoyuan Gao Junhua Mao Jie Zhou Zhiheng Huang Lei Wang Wenyuan Xu 32 496 0 21 May 2015
Exploring Nearest Neighbor Approaches for Image Captioning Jacob Devlin Saurabh Gupta Ross B. Girshick Margaret Mitchell C. L. Zitnick 27 195 0 17 May 2015
Jointly Modeling Embedding and Translation to Bridge Video and Language Yingwei Pan Tao Mei Ting Yao Houqiang Li Y. Rui 41 535 0 07 May 2015
Language Models for Image Captioning: The Quirks and What Works Jacob Devlin Hao Cheng Hao Fang Saurabh Gupta Li Deng Xiaodong He Geoffrey Zweig Margaret Mitchell 32 281 0 07 May 2015
Sequence to Sequence -- Video to Text Subhashini Venugopalan Marcus Rohrbach Jeff Donahue Raymond J. Mooney Trevor Darrell Kate Saenko 57 1,416 0 03 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 96 5,383 0 03 May 2015
Learning Temporal Embeddings for Complex Video Analysis Vignesh Ramanathan K. Tang Greg Mori Li Fei-Fei 34 71 0 02 May 2015
Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images Junhua Mao Xu Wei Yi Yang Jiang Wang Zhiheng Huang Alan Yuille 25 154 0 25 Apr 2015
Multimodal Convolutional Neural Networks for Matching Image and Sentence Lin Ma Zhengdong Lu Lifeng Shang Hang Li 38 337 0 23 Apr 2015
Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images Chen Sun Sanketh Shetty Rahul Sukthankar Ram Nevatia 28 136 0 04 Apr 2015
A Simple Way to Initialize Recurrent Networks of Rectified Linear Units Quoc V. Le Navdeep Jaitly Geoffrey E. Hinton ODL 35 716 0 03 Apr 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 97 2,434 0 01 Apr 2015