A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation

12 June 2023

Papers citing "A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation"

4 / 4 papers shown

Title
Context-Informed Machine Translation of Manga using Multimodal Large Language Models Philip Lippmann Konrad Skublicki Joshua Tanner Shonosuke Ishiwatari Jie-jin Yang 38 0 0 04 Nov 2024
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 311 7,457 0 11 Nov 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 331 3,708 0 11 Feb 2021