Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval

Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval

8 August 2023

Haoxuan Li

Xing Xu

Papers citing "Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval"

6 / 6 papers shown

Title
Multi-modal Reference Learning for Fine-grained Text-to-Image Retrieval Zehong Ma Hao Chen Wei Zeng Limin Su Shiliang Zhang AI4TS 35 0 0 10 Apr 2025
Deep Reversible Consistency Learning for Cross-modal Retrieval Ruitao Pu Yang Qin Dezhong Peng Xiaomin Song Huiming Zheng 46 1 0 10 Jan 2025
MAS-SAM: Segment Any Marine Animal with Aggregated Features Tianyu Yan Zifu Wan Xinhao Deng Pingping Zhang Yang Liu Huchuan Lu 29 6 0 24 Apr 2024
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 308 7,443 0 11 Nov 2021
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 275 31,267 0 16 Jan 2013
A Multi-View Embedding Space for Modeling Internet Images, Tags, and their Semantics Yunchao Gong Qifa Ke Michael Isard Svetlana Lazebnik 3DV 76 584 0 18 Dec 2012