Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

18 May 2025

Papers citing "Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts"

3 / 3 papers shown

Title
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Pan Zhang Xiaoyi Wang Bin Wang Yuhang Cao Chao Xu ... Conghui He Xingcheng Zhang Yu Qiao Da Lin Jiaqi Wang MLLM 87 231 0 26 Sep 2023
EVA-CLIP: Improved Training Techniques for CLIP at Scale Quan-Sen Sun Yuxin Fang Ledell Yu Wu Xinlong Wang Yue Cao CLIP VLM 88 478 0 27 Mar 2023
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 48 1,028 0 27 Mar 2023