MULE: Multimodal Universal Language Embedding

MULE: Multimodal Universal Language Embedding

8 September 2019

Bryan A. Plummer

Papers citing "MULE: Multimodal Universal Language Embedding"

13 / 13 papers shown

Title
UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings Jiajun Qin Yuan Pu Zhuolun He Seunggeun Kim David Z. Pan Bei Yu 2 0 0 17 May 2025
Teaching Structured Vision&Language Concepts to Vision&Language Models Sivan Doveh Assaf Arbelle Sivan Harary Yikang Shen Roei Herzig ... Donghyun Kim Raja Giryes Rogerio Feris S. Ullman Leonid Karlinsky VLM CoGe 53 70 0 21 Nov 2022
MuMUR : Multilingual Multimodal Universal Retrieval Avinash Madasu Estelle Aflalo Gabriela Ben-Melech Stan Shachar Rosenman Shao-Yen Tseng Gedas Bertasius Vasudev Lal 44 3 0 24 Aug 2022
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations Jialu Li Hao Tan Joey Tianyi Zhou LM&Ro 64 12 0 05 Jul 2022
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages Emanuele Bugliarello Fangyu Liu Jonas Pfeiffer Siva Reddy Desmond Elliott E. Ponti Ivan Vulić MLLM VLM ELM 48 62 0 27 Jan 2022
Anchoring to Exemplars for Training Mixture-of-Expert Cell Embeddings Siqi Wang Manyuan Lu Nikita Moshkov Juan C. Caicedo Bryan A. Plummer 21 4 0 06 Dec 2021
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training Mingyang Zhou Luowei Zhou Shuohang Wang Yu Cheng Linjie Li Zhou Yu Jingjing Liu MLLM VLM 31 89 0 01 Apr 2021
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval Gregor Geigle Jonas Pfeiffer Nils Reimers Ivan Vulić Iryna Gurevych 35 59 0 22 Mar 2021
Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models Po-Yao (Bernie) Huang Mandela Patrick Junjie Hu Graham Neubig Florian Metze Alexander G. Hauptmann MLLM VLM 24 56 0 16 Mar 2021
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval Siqi Sun Yen-Chun Chen Linjie Li Shuohang Wang Yuwei Fang Jingjing Liu VLM 38 82 0 16 Mar 2021
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 20 168 0 01 Nov 2020
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 20 132 0 22 Jul 2019
Word Translation Without Parallel Data Alexis Conneau Guillaume Lample MarcÁurelio Ranzato Ludovic Denoyer Hervé Jégou 189 1,635 0 11 Oct 2017