Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep Features

1 June 2021

Papers citing "Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep Features"

4 / 4 papers shown

Title
An Enhanced Large Language Model For Cross Modal Query Understanding System Using DL-KeyBERT Based CAZSSCL-MPGPT Shreya Singh 50 0 0 24 Feb 2025
Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language Nicola Messina J. Sedmidubský Fabrizio Falchi Tomávs Rebok EGVM 34 10 0 25 May 2023
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval Nicola Messina Matteo Stefanini Marcella Cornia Lorenzo Baraldi Fabrizio Falchi Giuseppe Amato Rita Cucchiara VLM 16 21 0 29 Jul 2022
Combining EfficientNet and Vision Transformers for Video Deepfake Detection D. Coccomini Nicola Messina Claudio Gennaro Fabrizio Falchi ViT 43 169 0 06 Jul 2021