Cross-Modal Discrete Representation Learning

10 June 2021

Papers citing "Cross-Modal Discrete Representation Learning"

6 / 6 papers shown

Title
Enhancing Multimodal Unified Representations for Cross Modal Generalization Hai Huang Yan Xia Shengpeng Ji Shulei Wang Hanting Wang Minghui Fang Jieming Zhu Zhenhua Dong Sashuai Zhou Zhou Zhao 29 6 0 08 Mar 2024
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval Andrew Rouditchenko Yung-Sung Chuang Nina Shvetsova Samuel Thomas Rogerio Feris Brian Kingsbury Leonid Karlinsky David Harwath Hilde Kuehne James R. Glass VLM 31 4 0 07 Oct 2022
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua-Hong Wu Haifeng Wang MLLM 13 21 0 17 Mar 2022
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition Zitian Zhang Jie Zhang Jian-Shu Zhang Ming Wu Xin Fang Lirong Dai SSL 38 10 0 15 Feb 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 317 780 0 18 Apr 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 424 596 0 21 Jul 2020