Stacked Cross Attention for Image-Text Matching

21 March 2018

Papers citing "Stacked Cross Attention for Image-Text Matching"

50 / 161 papers shown

Title
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval Xuri Ge Fuhai Chen J. Jose Zhilong Ji Zhongqin Wu Xiao-Chang Liu 23 55 0 05 Aug 2021
Few-Shot and Continual Learning with Attentive Independent Mechanisms Eugene Lee Cheng-Han Huang Chen-Yi Lee CLL 23 24 0 29 Jul 2021
Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification Z. Ding Changxing Ding Zhiyin Shao Dacheng Tao 30 132 0 27 Jul 2021
HANet: Hierarchical Alignment Networks for Video-Text Retrieval Peng Wu Xiangteng He Mingqian Tang Yiliang Lv Jing Liu 28 52 0 26 Jul 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 67 254 0 14 Jul 2021
PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen VLM 27 55 0 06 Jul 2021
Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words Chuan Tang Xi Yang Bojian Wu Zhizhong Han Yi Chang 3DPC 33 13 0 05 Jul 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 30 88 0 25 Jun 2021
Step-Wise Hierarchical Alignment Network for Image-Text Matching Zhong Ji Kexin Chen Haoran Wang 22 93 0 11 Jun 2021
T-EMDE: Sketching-based global similarity for cross-modal retrieval Barbara Rychalska Mikolaj Wieczorek Jacek Dąbrowski 30 0 0 10 May 2021
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee Kwanghoon Sohn 165 100 0 29 Apr 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 106 54 0 23 Apr 2021
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 170 170 0 20 Apr 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 15 1,442 0 18 Apr 2021
Cross-Modal Retrieval Augmentation for Multi-Modal Classification Shir Gur Natalia Neverova C. Stauffer Ser-Nam Lim Douwe Kiela A. Reiter 14 26 0 16 Apr 2021
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu VLM ViT 39 271 0 07 Apr 2021
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval Gregor Geigle Jonas Pfeiffer Nils Reimers Ivan Vulić Iryna Gurevych 35 59 0 22 Mar 2021
Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query Guanyu Cai Jun Zhang Xinyang Jiang Yifei Gong Lianghua He Fufu Yu Pai Peng Xiaowei Guo Feiyue Huang Xing Sun 29 13 0 02 Mar 2021
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer Rafal Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michal Pietruszka Gabriela Pałka ViT 36 157 0 18 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 293 1,084 0 17 Feb 2021
Macroscopic Control of Text Generation for Image Captioning Zhangzi Zhu Tianlei Wang Hong Qu 27 4 0 20 Jan 2021
Similarity Reasoning and Filtration for Image-Text Matching Haiwen Diao Ying Zhang Lingyun Ma Huchuan Lu 219 332 0 05 Jan 2021
Transformers in Vision: A Survey Salman Khan Muzammal Naseer Munawar Hayat Syed Waqas Zamir F. Khan M. Shah ViT 227 2,430 0 04 Jan 2021
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models Linjie Li Zhe Gan Jingjing Liu VLM 33 42 0 15 Dec 2020
An Improved Attention for Visual Question Answering Tanzila Rahman Shih-Han Chou Leonid Sigal Giuseppe Carenini 13 42 0 04 Nov 2020
Learning Dual Semantic Relations with Graph Attention for Image-Text Matching Keyu Wen Xiaodong Gu Qingrong Cheng 19 95 0 22 Oct 2020
Contrastive Cross-Modal Pre-Training: A General Strategy for Small Sample Medical Imaging G. Liang Connor Greenwell Yu Zhang Xiaoqin Wang Ramakanth Kavuluru Nathan Jacobs 42 21 0 06 Oct 2020
Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News Reuben Tan Bryan A. Plummer Kate Saenko AAML 24 71 0 16 Sep 2020
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports Yikuan Li Hanyin Wang Yuan Luo 19 63 0 03 Sep 2020
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation Yongjing Yin Fandong Meng Jinsong Su Chulun Zhou Zhengyuan Yang Jie Zhou Jiebo Luo 33 138 0 17 Jul 2020
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua-Hong Wu Haifeng Wang 31 376 0 30 Jun 2020
Exploiting Visual Semantic Reasoning for Video-Text Retrieval Zerun Feng Zhimin Zeng Caili Guo Zheng Li 22 34 0 16 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 35 488 0 11 Jun 2020
Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting Po-Yao (Bernie) Huang Junjie Hu Xiaojun Chang Alexander G. Hauptmann 30 49 0 06 May 2020
Multimodal Categorization of Crisis Events in Social Media Mahdi Abavisani Liwei Wu Shengli Hu Joel R. Tetreault A. Jaimes 29 87 0 10 Apr 2020
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers Zhicheng Huang Zhaoyang Zeng Bei Liu Dongmei Fu Jianlong Fu ViT 32 436 0 02 Apr 2020
Graph Structured Network for Image-Text Matching Chunxiao Liu Zhendong Mao Tianzhu Zhang Hongtao Xie Bin Wang Yongdong Zhang 19 232 0 01 Apr 2020
Adaptive Offline Quintuplet Loss for Image-Text Matching Tianlang Chen Jiajun Deng Jiebo Luo 181 68 0 07 Mar 2020
Cross-modality Person re-identification with Shared-Specific Feature Transfer Yan Lu Yue Wu B. Liu Tianzhu Zhang Baopu Li Qi Chu Nenghai Yu 22 264 0 28 Feb 2020
Adversarial Ranking Attack and Defense Mo Zhou Zhenxing Niu Le Wang Qilin Zhang G. Hua 36 38 0 26 Feb 2020
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval Hadi Abdi Khojasteh Ebrahim Ansari Parvin Razzaghi Akbar Karimi VLM 11 4 0 23 Feb 2020
ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data Di Qi Lin Su Jianwei Song Edward Cui Taroon Bharti Arun Sacheti VLM 40 259 0 22 Jan 2020
Show, Recall, and Tell: Image Captioning with Recall Mechanism Li Wang Zechen Bai Yonghua Zhang Hongtao Lu 27 67 0 15 Jan 2020
Weak Supervision helps Emergence of Word-Object Alignment and improves Vision-Language Tasks Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 21 15 0 06 Dec 2019
Target-Oriented Deformation of Visual-Semantic Embedding Space Takashi Matsubara 23 7 0 15 Oct 2019
Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval Sijin Wang Ruiping Wang Ziwei Yao Shiguang Shan Xilin Chen 3DV 28 208 0 11 Oct 2019
Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations Po-Yao (Bernie) Huang Xiaojun Chang Alexander G. Hauptmann 27 25 0 30 Sep 2019
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval Reuben Tan Huijuan Xu Kate Saenko Bryan A. Plummer 28 67 0 27 Sep 2019
Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators Kuang-Huei Lee Hamid Palangi Xi Chen Houdong Hu Jianfeng Gao VLM 27 37 0 22 Sep 2019