v1v2 (latest)

Learning Deep Structure-Preserving Image-Text Embeddings

19 November 2015

Liwei Wang

Yin Li

Svetlana Lazebnik

ArXiv (abs)PDF HTML

Papers citing "Learning Deep Structure-Preserving Image-Text Embeddings"

22 / 222 papers shown

Title
Creativity: Generating Diverse Questions using Variational Autoencoders Unnat Jain Ziyu Zhang Alex Schwing 72 152 0 11 Apr 2017
Learning Two-Branch Neural Networks for Image-Text Matching Tasks Liwei Wang Yin Li Jing-ling Huang Svetlana Lazebnik VLM 100 498 0 11 Apr 2017
Generating Descriptions with Grounded and Co-Referenced People Anna Rohrbach Marcus Rohrbach Siyu Tang Seong Joon Oh Bernt Schiele 407 72 0 05 Apr 2017
Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval Yuting Hu Liang Zheng Yi Yang Yongfeng Huang 68 59 0 20 Mar 2017
Learning Robust Visual-Semantic Embeddings Yao-Hung Hubert Tsai Liang-Kang Huang Ruslan Salakhutdinov SSL AI4TS 78 166 0 17 Mar 2017
A New Evaluation Protocol and Benchmarking Results for Extendable Cross-media Retrieval Ruoyu Liu Yao Zhao Liang Zheng Shikui Wei Yi Yang 57 12 0 10 Mar 2017
Domain Adaptation for Visual Applications: A Comprehensive Survey G. Csurka OOD 104 508 0 17 Feb 2017
Comprehension-guided referring expressions Ruotian Luo Gregory Shakhnarovich ObjD 107 171 0 12 Jan 2017
A Joint Speaker-Listener-Reinforcer Model for Referring Expressions Licheng Yu Hao Tan Joey Tianyi Zhou Tamara L. Berg ObjD 98 275 0 30 Dec 2016
Learning Visual N-Grams from Web Data Ang Li Allan Jabri Armand Joulin Laurens van der Maaten VLM 83 138 0 29 Dec 2016
Phrase Localization and Visual Relationship Detection with Comprehensive Image-Language Cues Bryan A. Plummer Arun Mallya Christopher M. Cervantes Julia Hockenmaier Svetlana Lazebnik 122 189 0 21 Nov 2016
Instance-aware Image and Sentence Matching with Selective Multimodal LSTM Yan Huang Wei Wang Liang Wang 108 223 0 17 Nov 2016
Multispectral Deep Neural Networks for Pedestrian Detection Jingjing Liu Shaoting Zhang Shu Wang Dimitris N. Metaxas 3DH 46 363 0 08 Nov 2016
Dual Attention Networks for Multimodal Reasoning and Matching Hyeonseob Nam Jung-Woo Ha Jeonghee Kim 122 669 0 02 Nov 2016
Linking Image and Text with 2-Way Nets Aviv Eisenschtat Lior Wolf 96 176 0 29 Aug 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 437 10,556 0 21 Jul 2016
Picture It In Your Mind: Generating High Level Visual Representations From Textual Descriptions F. Carrara Andrea Esuli T. Fagni Fabrizio Falchi Alejandro Moreo DiffM 53 30 0 23 Jun 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 332 1,470 0 06 Jun 2016
Ask Your Neurons: A Deep Learning Approach to Visual Question Answering Mateusz Malinowski Marcus Rohrbach Mario Fritz 106 101 0 09 May 2016
BreakingNews: Article Annotation by Image and Text Processing Arnau Ramisa F. Yan Francesc Moreno-Noguer K. Mikolajczyk 72 106 0 23 Mar 2016
Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach Marcus Rohrbach Ronghang Hu Trevor Darrell Bernt Schiele 86 497 0 12 Nov 2015
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models Bryan A. Plummer Liwei Wang Christopher M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik 228 2,079 0 19 May 2015