ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

31 March 2022

Errui Ding

Jingdong Wang

Papers citing "ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval"

13 / 13 papers shown

Title
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval Zengrong Lin Zheng Wang Tianwen Qian Pan Mu Sixian Chan Cong Bai 55 0 0 13 Mar 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin Yiming Li Li Yuan Shuicheng Yan Jie Chen 54 1 0 31 Dec 2024
Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory Sensen Gao Xiaojun Jia Xuhong Ren Ivor Tsang Qing-Wu Guo AAML 38 14 0 19 Mar 2024
Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation Siyu Zhang Ye-Ting Chen Fang Wang Yaoru Sun Jun Yang Lizhi Bai SSL 30 0 0 20 Oct 2023
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models Dong Lu Zhiqiang Wang Teng Wang Weili Guan Hongchang Gao Feng Zheng AAML 53 65 0 26 Jul 2023
EDIS: Entity-Driven Image Search over Multimodal Web Content Siqi Liu Weixi Feng Tsu-jui Fu Wenhu Chen Luu Anh Tuan VLM 48 9 0 23 May 2023
LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval Ziyang Luo Pu Zhao Can Xu Xiubo Geng Tao Shen Chongyang Tao Jing Ma Qingwen Lin Daxin Jiang VLM CLIP 19 3 0 06 Feb 2023
Image-Text Retrieval with Binary and Continuous Label Supervision Zheng Li Caili Guo Zerun Feng Lei Li Ying Jin Yufeng Zhang VLM 28 4 0 20 Oct 2022
Unified Loss of Pair Similarity Optimization for Vision-Language Retrieval Zheng Li Caili Guo Xin Wang Zerun Feng Lei Li Zhongtian Du VLM 24 2 0 28 Sep 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 313 3,708 0 11 Feb 2021
Probabilistic Embeddings for Cross-Modal Retrieval Sanghyuk Chun Seong Joon Oh Rafael Sampaio de Rezende Yannis Kalantidis Diane Larlus UQCV 412 200 0 13 Jan 2021
Similarity Reasoning and Filtration for Image-Text Matching Haiwen Diao Ying Zhang Lingyun Ma Huchuan Lu 219 332 0 05 Jan 2021
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 278 31,267 0 16 Jan 2013