Learning Semantic Concepts and Order for Image and Sentence Matching

6 December 2017

Yan Huang

Qi Wu

Liang Wang

VLM

ArXiv PDF HTML

Papers citing "Learning Semantic Concepts and Order for Image and Sentence Matching"

41 / 41 papers shown

Title
Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning Yaming Yang Zhe Wang Fuhai Chen Wei Zhao Weigang Lu Joemon M. Jose CVBM 38 1 0 01 Aug 2024
Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval Rui Yang Shuang Wang Yi Han Yuanheng Li Dong Zhao Dou Quan Yanhe Guo Licheng Jiao 68 3 0 29 May 2024
LIMITR: Leveraging Local Information for Medical Image-Text Representation Gefen Dawidowicz Elad Hirsch A. Tal 31 15 0 21 Mar 2023
HierVL: Learning Hierarchical Video-Language Embeddings Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman VLM AI4TS 28 53 0 05 Jan 2023
Scale-Semantic Joint Decoupling Network for Image-text Retrieval in Remote Sensing Chengyu Zheng Ning Song Ruoyu Zhang Lei Huang Zhiqiang Wei Jie Nie 19 13 0 12 Dec 2022
Improving Cross-Modal Retrieval with Set of Diverse Embeddings Dongwon Kim Nam-Won Kim Suha Kwak 26 37 0 30 Nov 2022
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao J. Jose 30 26 0 17 Oct 2022
Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning Fuying Wang Yuyin Zhou Shujun Wang V. Vardhanabhuti Lequan Yu 34 137 0 12 Oct 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li YunLong Yu Zhong Ji Errui Ding Jingdong Wang 30 23 0 21 Aug 2022
Intra-Modal Constraint Loss For Image-Text Retrieval Jia-nan Chen Lu Zhang Qiong Wang Cong Bai K. Kpalma 9 7 0 11 Jul 2022
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval Feilong Chen Xiuyi Chen Jiaxin Shi Duzhen Zhang Jianlong Chang Qi Tian VLM CLIP 34 6 0 24 May 2022
Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval Zhiqiang Yuan Wenkai Zhang Kun Fu Xuan Li Chubo Deng Hongqi Wang Xian Sun 29 130 0 21 Apr 2022
ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-verified Image-Caption Associations for MS-COCO Sanghyuk Chun Wonjae Kim Song Park Minsuk Chang Seong Joon Oh VLM 373 43 0 07 Apr 2022
Text2Pos: Text-to-Point-Cloud Cross-Modal Localization Manuel Kolmet Qunjie Zhou Aljosa Osep Laura Leal-Taixe 27 24 0 28 Mar 2022
Multi-Modal Knowledge Graph Construction and Application: A Survey Xiangru Zhu Zhixu Li Xiaodan Wang Xueyao Jiang Penglei Sun Xuwu Wang Yanghua Xiao N. Yuan 33 154 0 11 Feb 2022
Semantic Communications: Principles and Challenges Zhijin Qin Xiaoming Tao Jianhua Lu Wen Tong Geoffrey Ye Li 31 338 0 30 Dec 2021
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval Xuri Ge Fuhai Chen J. Jose Zhilong Ji Zhongqin Wu Xiao-Chang Liu 34 55 0 05 Aug 2021
Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification Z. Ding Changxing Ding Zhiyin Shao Dacheng Tao 30 131 0 27 Jul 2021
Cross-Modal Retrieval Augmentation for Multi-Modal Classification Shir Gur Natalia Neverova C. Stauffer Ser-Nam Lim Douwe Kiela A. Reiter 19 26 0 16 Apr 2021
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval Siqi Sun Yen-Chun Chen Linjie Li Shuohang Wang Yuwei Fang Jingjing Liu VLM 38 82 0 16 Mar 2021
Similarity Reasoning and Filtration for Image-Text Matching Haiwen Diao Ying Zhang Lingyun Ma Huchuan Lu 240 332 0 05 Jan 2021
Graph Optimal Transport for Cross-Domain Alignment Liqun Chen Zhe Gan Yu Cheng Linjie Li Lawrence Carin Jingjing Liu OT 25 148 0 26 Jun 2020
Graph Structured Network for Image-Text Matching Chunxiao Liu Zhendong Mao Tianzhu Zhang Hongtao Xie Bin Wang Yongdong Zhang 25 232 0 01 Apr 2020
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval Hui Chen Guiguang Ding Xudong Liu Zijia Lin Ji Liu Jungong Han 22 318 0 08 Mar 2020
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning Shizhe Chen Yida Zhao Qin Jin Qi Wu 39 310 0 01 Mar 2020
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval Hadi Abdi Khojasteh Ebrahim Ansari Parvin Razzaghi Akbar Karimi VLM 11 4 0 23 Feb 2020
ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language Dave Zhenyu Chen Angel X. Chang Matthias Nießner 3DPC 47 348 0 18 Dec 2019
Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences Shizhe Chen Bei Liu Jianlong Fu Ruihua Song Qin Jin Pingping Lin Xiaoyu Qi Chunting Wang Jin Zhou DiffM 20 33 0 24 Nov 2019
Target-Oriented Deformation of Visual-Semantic Embedding Space Takashi Matsubara 26 7 0 15 Oct 2019
Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval Sijin Wang Ruiping Wang Ziwei Yao Shiguang Shan Xilin Chen 3DV 33 208 0 11 Oct 2019
Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators Kuang-Huei Lee Hamid Palangi Xi Chen Houdong Hu Jianfeng Gao VLM 27 37 0 22 Sep 2019
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao VLM 25 299 0 12 Sep 2019
MULE: Multimodal Universal Language Embedding Donghyun Kim Kuniaki Saito Kate Saenko Stan Sclaroff Bryan A. Plummer VLM 32 40 0 08 Sep 2019
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training Gen Li Nan Duan Yuejian Fang Ming Gong Daxin Jiang Ming Zhou SSL VLM MLLM 86 895 0 16 Aug 2019
Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking Tan Wang Xing Xu Yang Yang Alan Hanjalic Heng Tao Shen Jingkuan Song 22 145 0 12 Aug 2019
Improving Description-based Person Re-identification by Multi-granularity Image-text Alignments K. Niu Y. Huang Wanli Ouyang Liang Wang 27 138 0 23 Jun 2019
ParNet: Position-aware Aggregated Relation Network for Image-Text matching Yaxian Xia Lun Huang Wenmin Wang Xiao-Yong Wei Jie Chen 27 1 0 17 Jun 2019
Multi-task Learning of Hierarchical Vision-Language Representation Duy-Kien Nguyen Takayuki Okatani 25 51 0 03 Dec 2018
Pedestrian Trajectory Prediction with Structured Memory Hierarchies Tharindu Fernando Simon Denman Sridha Sridharan Clinton Fookes 19 18 0 22 Jul 2018
Stacked Cross Attention for Image-Text Matching Kuang-Huei Lee Xi Chen G. Hua Houdong Hu Xiaodong He 30 1,142 0 21 Mar 2018
Dual-Path Convolutional Image-Text Embeddings with Instance Loss Zhedong Zheng Liang Zheng Michael Garrett Yi Yang Mingliang Xu Yi-Dong Shen 27 470 0 15 Nov 2017