v1v2 (latest)

Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking

12 August 2019

Tan Wang

Xing Xu

Yang Yang

Alan Hanjalic

Heng Tao Shen

Jingkuan Song

ArXiv (abs)PDF HTML Github (68★)

Papers citing "Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking"

22 / 22 papers shown

Title
Stacked Cross Attention for Image-Text Matching Kuang-Huei Lee Xi Chen G. Hua Houdong Hu Xiaodong He 109 1,158 0 21 Mar 2018
Learning Semantic Concepts and Order for Image and Sentence Matching Yan Huang Qi Wu Liang Wang VLM 85 303 0 06 Dec 2017
Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models Jiuxiang Gu Jianfei Cai Shafiq Joty Li Niu G. Wang VLM 108 361 0 17 Nov 2017
Identity-Aware Textual-Visual Matching with Latent Co-attention Shuang Li Tong Xiao Hongsheng Li Wei Yang Xiaogang Wang 103 229 0 07 Aug 2017
MUTAN: Multimodal Tucker Fusion for Visual Question Answering H. Ben-younes Rémi Cadène Matthieu Cord Nicolas Thome 171 583 0 18 May 2017
Learning Two-Branch Neural Networks for Image-Text Matching Tasks Liwei Wang Yin Li Jing-ling Huang Svetlana Lazebnik VLM 88 498 0 11 Apr 2017
Re-ranking Person Re-identification with k-reciprocal Encoding Zhun Zhong Liang Zheng Donglin Cao Shaozi Li 149 1,506 0 29 Jan 2017
Instance-aware Image and Sentence Matching with Selective Multimodal LSTM Yan Huang Wei Wang Liang Wang 105 223 0 17 Nov 2016
Dual Attention Networks for Multimodal Reasoning and Matching Hyeonseob Nam Jung-Woo Ha Jeonghee Kim 115 668 0 02 Nov 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 324 1,469 0 06 Jun 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 237 5,766 0 23 Feb 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.3K 194,641 0 10 Dec 2015
Simple Baseline for Visual Question Answering Bolei Zhou Yuandong Tian Sainbayar Sukhbaatar Arthur Szlam Rob Fergus FAtt 97 324 0 07 Dec 2015
Learning Deep Structure-Preserving Image-Text Embeddings Liwei Wang Yin Li Svetlana Lazebnik 86 783 0 19 Nov 2015
Skip-Thought Vectors Ryan Kiros Yukun Zhu Ruslan Salakhutdinov R. Zemel Antonio Torralba R. Urtasun Sanja Fidler SSL 228 2,412 0 22 Jun 2015
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 545 62,477 0 04 Jun 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 243 5,512 0 03 May 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 352 10,091 0 10 Feb 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 2.2K 150,433 0 22 Dec 2014
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 154 5,599 0 07 Dec 2014
On the Properties of Neural Machine Translation: Encoder-Decoder Approaches Kyunghyun Cho B. V. Merrienboer Dzmitry Bahdanau Yoshua Bengio AI4CE AIMat 272 6,793 0 03 Sep 2014
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 444 43,875 0 01 May 2014