SEA: Supervised Embedding Alignment for Token-Level Visual-Textual
Integration in MLLMs

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

21 August 2024

Xin Tao

Papers citing "SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs"

4 / 4 papers shown

Title
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding Zheng Liu Mengjie Liu Jianfei Chen Jingwei Xu Tengjiao Wang Conghui He Wentao Zhang MLLM 59 0 0 14 Apr 2025
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 284 4,244 0 30 Jan 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark Ashwin Kalyan ELM ReLM LRM 211 1,106 0 20 Sep 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 308 7,443 0 11 Nov 2021