Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text

14 December 2021

Xianzhi Du

Ming-Hsuan Yang

Matthew A. Brown

Papers citing "Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text"

4 / 4 papers shown

Title
InstaTune: Instantaneous Neural Architecture Search During Fine-Tuning S. N. Sridhar Souvik Kundu Sairam Sundaresan Maciej Szankin Anthony Sarah 25 3 0 29 Aug 2023
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 72 528 0 13 Jun 2022
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Huayu Chen Boqing Gong ViT 251 577 0 22 Apr 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 299 6,984 0 20 Apr 2018