Visual Semantic Reasoning for Image-Text Matching

6 September 2019

Papers citing "Visual Semantic Reasoning for Image-Text Matching"

50 / 75 papers shown

Title
PREMISE: Matching-based Prediction for Accurate Review Recommendation Wei Han Hui Chen Soujanya Poria 54 0 0 02 May 2025
ReCon: Enhancing True Correspondence Discrimination through Relation Consistency for Robust Noisy Correspondence Learning Quanxing Zha Xin Liu Shu-Juan Peng Y. Cheung X. Xu Nannan Wang 50 0 0 13 Mar 2025
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 255 0 0 21 Feb 2025
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Zeang Sheng Weijia Li Weijia Li 81 0 0 22 Dec 2024
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge Young-Jun Lee Dokyong Lee Junyoung Youn Kyeongjin Oh ByungSoo Ko Jonghwan Hyeon Ho-Jin Choi 36 2 0 04 Jul 2024
MATE: Meet At The Embedding -- Connecting Images with Long Texts Young Kyun Jang Junmo Kang Yong Jae Lee Donghyun Kim VLM 44 5 0 26 Jun 2024
Composing Object Relations and Attributes for Image-Text Matching Khoi Pham Chuong Huynh Ser-Nam Lim Abhinav Shrivastava CoGe 44 4 0 17 Jun 2024
Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval Rui Yang Shuang Wang Yi Han Yuanheng Li Dong Zhao Dou Quan Yanhe Guo Licheng Jiao 68 3 0 29 May 2024
Multiscale Matching Driven by Cross-Modal Similarity Consistency for Audio-Text Retrieval Qian Wang Jia-Chen Gu Zhen-Hua Ling 35 2 0 15 Mar 2024
Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval Haocheng Han Qinghua Zheng Guangwen Dai Minnan Luo Jingdong Wang 32 5 0 08 Mar 2024
Semantics-aware Motion Retargeting with Vision-Language Models Haodong Zhang Zhike Chen Haocheng Xu Lei Hao Xiaofei Wu Songcen Xu Zhensong Zhang Yue Wang Rong Xiong 43 5 0 04 Dec 2023
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features Hila Levi Guy Heller Dan Levi Ethan Fetaya OCL VLM 32 3 0 26 Sep 2023
Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment Jiamin Zhuang Jing Yu Yang Ding Xiangyang Qu Yue Hu 32 9 0 27 Aug 2023
Hierarchical Matching and Reasoning for Multi-Query Image Retrieval Zhong Ji Zhihao Li Yan Zhang Haoran Wang Yanwei Pang Xuelong Li 31 11 0 26 Jun 2023
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol 10 6 0 11 May 2023
Noisy Correspondence Learning with Meta Similarity Correction Haocheng Han Kaiyao Miao Qinghua Zheng Minnan Luo 32 28 0 13 Apr 2023
Multi-Modal Representation Learning with Text-Driven Soft Masks Jaeyoo Park Bohyung Han SSL 30 4 0 03 Apr 2023
Local Contrastive Learning for Medical Image Recognition S. A. Rizvi Ruixiang Tang X. Jiang X. Ma X. Hu 33 6 0 24 Mar 2023
LIMITR: Leveraging Local Information for Medical Image-Text Representation Gefen Dawidowicz Elad Hirsch A. Tal 36 15 0 21 Mar 2023
Selectively Hard Negative Mining for Alleviating Gradient Vanishing in Image-Text Matching Zheng Li Caili Guo Xin Eric Wang Zerun Feng Zhongtian Du VLM 26 4 0 01 Mar 2023
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval Yan Zhang Zhong Ji Dingrong Wang Yanwei Pang Xuelong Li VLM 24 23 0 17 Jan 2023
HierVL: Learning Hierarchical Video-Language Embeddings Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman VLM AI4TS 33 53 0 05 Jan 2023
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval Jie Guo Meiting Wang Yan Zhou Bin Song Yuhao Chi Wei-liang Fan Jianglong Chang 45 15 0 16 Dec 2022
Improving Cross-Modal Retrieval with Set of Diverse Embeddings Dongwon Kim Nam-Won Kim Suha Kwak 26 37 0 30 Nov 2022
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding Eslam Mohamed Bakr Yasmeen Alsaedy Mohamed Elhoseiny 3DPC 23 41 0 25 Nov 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 21 21 0 15 Nov 2022
Image-Text Retrieval with Binary and Continuous Label Supervision Zheng Li Caili Guo Zerun Feng Lei Li Ying Jin Yufeng Zhang VLM 42 4 0 20 Oct 2022
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao J. Jose 30 26 0 17 Oct 2022
Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning Fuying Wang Yuyin Zhou Shujun Wang V. Vardhanabhuti Lequan Yu 34 137 0 12 Oct 2022
Unified Loss of Pair Similarity Optimization for Vision-Language Retrieval Zheng Li Caili Guo Xin Eric Wang Zerun Feng Lei Li Zhongtian Du VLM 33 2 0 28 Sep 2022
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective Chaoqi Chen Yushuang Wu Qiyuan Dai Hong-Yu Zhou Mutian Xu Sibei Yang Xiaoguang Han Yizhou Yu ViT MedIm AI4CE 29 74 0 27 Sep 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li YunLong Yu Zhong Ji Errui Ding Jingdong Wang 30 23 0 21 Aug 2022
Vision-Language Matching for Text-to-Image Synthesis via Generative Adversarial Networks Qingrong Cheng Keyu Wen X. Gu VLM EGVM 32 16 0 20 Aug 2022
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval Nicola Messina Matteo Stefanini Marcella Cornia Lorenzo Baraldi Fabrizio Falchi Giuseppe Amato Rita Cucchiara VLM 16 21 0 29 Jul 2022
VALHALLA: Visual Hallucination for Machine Translation Yi Li Yikang Shen Yoon Kim Chun-Fu Chen Rogerio Feris David D. Cox Nuno Vasconcelos MLLM 40 38 0 31 May 2022
An Overview of Recent Work in Media Forensics: Methods and Threats Kratika Bhagtani A. Yadav Emily R. Bartusiak Ziyue Xiang Ruiting Shao Sriram Baireddy Edward J. Delp AAML 55 25 0 26 Apr 2022
ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-verified Image-Caption Associations for MS-COCO Sanghyuk Chun Wonjae Kim Song Park Minsuk Chang Seong Joon Oh VLM 378 43 0 07 Apr 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 42 404 0 07 Apr 2022
ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval Mengjun Cheng Yipeng Sun Long Wang Xiongwei Zhu Kun Yao ... Guoli Song Junyu Han Jingtuo Liu Errui Ding Jingdong Wang 39 60 0 31 Mar 2022
Two-stream Hierarchical Similarity Reasoning for Image-text Matching Ran Chen Hanli Wang Lei Wang Sam Kwong 21 9 0 10 Mar 2022
Where Does the Performance Improvement Come From? -- A Reproducibility Concern about Image-Text Retrieval Jun Rao Fei Wang Liang Ding Shuhan Qi Yibing Zhan Weifeng Liu Dacheng Tao OOD 42 28 0 08 Mar 2022
Do Lessons from Metric Learning Generalize to Image-Caption Retrieval? Maurits J. R. Bleeker Maarten de Rijke SSL DML 29 9 0 14 Feb 2022
Cross-modal Contrastive Distillation for Instructional Activity Anticipation Zhengyuan Yang Jingen Liu Jing-ling Huang Xiaodong He Tao Mei Chenliang Xu Jiebo Luo 31 6 0 18 Jan 2022
Modeling Mask Uncertainty in Hyperspectral Image Reconstruction Jiamian Wang Yulun Zhang X. Yuan Ziyi Meng Zhiqiang Tao 21 9 0 31 Dec 2021
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation Zizhang Li Mengmeng Wang Jianbiao Mei Yong Liu 20 18 0 21 Nov 2021
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning Yizhen Zhang Minkyu Choi Kuan Han Zhongming Liu VLM 23 15 0 13 Nov 2021
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval Xuri Ge Fuhai Chen J. Jose Zhilong Ji Zhongqin Wu Xiao-Chang Liu 34 55 0 05 Aug 2021
Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition A. Bhunia Aneeshan Sain Amandeep Kumar S. Ghose Pinaki Nath Chowdhury Yi-Zhe Song 32 56 0 26 Jul 2021
Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images Nyoungwoo Lee Suwon Shin Jaegul Choo Ho‐Jin Choi S. Myaeng 19 25 0 19 Jul 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Chenyu You Caiming Xiong Guosheng Lin FaML 83 1,893 0 16 Jul 2021