GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training

GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training

8 August 2022

Papers citing "GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training"

9 / 9 papers shown

Title
GeoMM: On Geodesic Perspective for Multi-modal Learning Shibin Mei Hang Wang Bingbing Ni 22 0 0 16 May 2025
SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining Chull Hwan Song Taebaek Hwang Jooyoung Yoon Shunghyun Choi Yeong Hyeon Gu 23 4 0 01 Apr 2024
MAFA: Managing False Negatives for Vision-Language Pre-training Jaeseok Byun Dohoon Kim Taesup Moon VLM 13 4 0 11 Dec 2023
PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting Zixin Guo T. Wang Selen Pehlivan Abduljalil Radman Jorma T. Laaksonen VLM 30 2 0 14 Jul 2023
RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models Seulki Park Daeho Um Hajung Yoon Sanghyuk Chun Sangdoo Yun Jin Young Choi 38 2 0 21 Apr 2023
Accelerating Vision-Language Pretraining with Free Language Modeling Teng Wang Yixiao Ge Feng Zheng Ran Cheng Ying Shan Xiaohu Qie Ping Luo VLM MLLM 93 9 0 24 Mar 2023
VindLU: A Recipe for Effective Video-and-Language Pretraining Feng Cheng Xizi Wang Jie Lei David J. Crandall Joey Tianyi Zhou Gedas Bertasius VLM 35 79 0 09 Dec 2022
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations Mohammadreza Zolfaghari Yi Zhu Peter V. Gehler Thomas Brox 135 127 0 30 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 328 3,708 0 11 Feb 2021